TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025080215
公報種別
公開特許公報(A)
公開日
2025-05-23
出願番号
2024102458
出願日
2024-06-26
発明の名称
3次元オブジェクト認識方法及び装置
出願人
三星電子株式会社
,
Samsung Electronics Co.,Ltd.
代理人
個人
,
個人
主分類
G06T
7/00 20170101AFI20250516BHJP(計算;計数)
要約
【課題】3次元オブジェクト認識方法及び装置が提供される。
【解決手段】その方法は、3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する3次元バウンディングボックスを検出するステップを含む。
【選択図】図1
特許請求の範囲
【請求項1】
3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信するステップと、
エンコーディングモデルを用いて前記入力映像の部分領域の候補映像特徴、前記入力ポイントクラウドのポイントクラウド特徴、及び前記入力言語の言語特徴を生成するステップと、
前記候補映像特徴と前記言語特徴との間の類似度の類似度スコアに基づいて、前記候補映像特徴のうち前記言語特徴に対応するターゲット映像特徴を選択するステップと、
前記ターゲット映像特徴及び前記ポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させ、デコーディング出力を生成するステップと、
前記デコーディング出力に基づいてオブジェクト検出モデルを動作させ、前記ターゲットオブジェクトに対応する3次元バウンディングボックスを検出するステップと、
を含む、3次元オブジェクト認識方法。
続きを表示(約 1,300 文字)
【請求項2】
前記候補映像特徴、前記ポイントクラウド特徴、及び前記言語特徴を生成するステップは、
前記入力言語に基づいて言語エンコーディングモデルを動作させ、前記入力言語に対応する言語特徴を生成するステップと、
前記入力映像に基づいて映像エンコーディングモデル及び領域提案モデルを動作させ、前記入力映像の部分領域に対応する候補映像特徴を生成するステップと、
前記入力ポイントクラウドに基づいてポイントクラウドエンコーディングモデルを動作させ、前記入力ポイントクラウドに対応するポイントクラウド特徴を生成するステップと、
を含む、請求項1に記載の3次元オブジェクト認識方法。
【請求項3】
前記入力言語に基づいて前記ターゲットオブジェクトの幾何学的な特性を示す位置フィールド、及び前記ターゲットオブジェクトのクラスを示すクラスフィールドをそれぞれ含む拡張された表現が生成され、
前記拡張された表現に基づいて前記言語特徴が生成される、請求項1に記載の3次元オブジェクト認識方法。
【請求項4】
前記位置フィールドに基づいて他の幾何学的な特性の同じクラスのオブジェクトが区分される、請求項3に記載の3次元オブジェクト認識方法。
【請求項5】
前記位置フィールドは学習可能な特性を有する、請求項3に記載の3次元オブジェクト認識方法。
【請求項6】
前記デコーディング出力を生成するステップは、
前記ターゲット映像特徴を分割して映像トークンを生成するステップと、
前記ポイントクラウド特徴を分割してポイントクラウドトークンを生成するステップと、
前記映像トークンの相対的な位置を示す第1位置情報を生成するステップと、
前記ポイントクラウドトークンの相対的な位置を示す第2位置情報を生成するステップと、
前記映像トークン、前記ポイントクラウドトークン、前記第1位置情報、及び前記第2位置情報に基づいたキーデータ及びバリューデータで前記マルチモーダルデコーディングモデルを動作させるステップと、
を含む、請求項1に記載の3次元オブジェクト認識方法。
【請求項7】
前記デコーディング出力を生成するステップは、前記3次元空間で前記ターゲットオブジェクトが検出される可能性のある検出位置候補を示す検出ガイド情報に基づいたクエリデータで前記マルチモーダルデコーディングモデルを動作させるステップを含む、請求項6に記載の3次元オブジェクト認識方法。
【請求項8】
前記検出位置候補は非均一な位置を示す、請求項7に記載の3次元オブジェクト認識方法。
【請求項9】
前記マルチモーダルデコーディングモデルは、前記ターゲット映像特徴、前記ポイントクラウド特徴、及び前記検出ガイド情報から関連性を抽出して前記デコーディング出力を生成する、請求項7に記載の3次元オブジェクト認識方法。
【請求項10】
請求項1~請求項9のいずれか一項に記載の3次元オブジェクト認識方法をコンピュータに実行させるコンピュータプログラム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
以下の実施形態は、3次元オブジェクト認識方法及び装置に関する。
続きを表示(約 2,500 文字)
【背景技術】
【0002】
認識プロセスの技術的な自動化は、例えば、特殊な算出構造としてプロセッサで具現されたニューラルネットワークモデルを介して具現され、これは相当なトレーニング後に入力パターンと出力パターンとの間で算出上に直観的なマッピングを提供することができる。このようなマッピングを生成するトレーニングされた能力は、ニューラルネットワークモデルの学習能力という。さらに、特化したトレーニングにより、このように特化してトレーニングされたニューラルネットワークモデルは、例えばトレーニングしていない入力パターンに対して比較的に正確な出力を発生させる一般化能力(又は汎化能力)を有し得る。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下の実施形態は、3次元オブジェクト認識方法及び装置を提供することにその目的がある。
【課題を解決するための手段】
【0004】
一実施形態によれば、3次元オブジェクト認識方法は、3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信するステップと、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成するステップと、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択するステップと、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させ、デコーディング出力を生成するステップと、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する3次元バウンディングボックスを検出するステップとを含む。
【0005】
一実施形態に係る電子装置は、1つ以上のプロセッサと、命令語を格納するメモリと、を含み、命令語は、1つ以上のプロセッサによって、3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する3次元バウンディングボックスを検出するように設定される。
【0006】
一実施形態に係る車両は、3次元空間に関する入力映像を生成するカメラと、3次元空間に関する入力ポイントクラウドを生成するライダーセンサと、3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する3次元バウンディングボックスを検出する、1つ以上のプロセッサと、3次元バウンディングボックスに基づいて車両を制御する制御系統とを含む。
【発明の効果】
【0007】
実施形態によれば、3次元オブジェクト認識方法及び装置を提供することができる。
【図面の簡単な説明】
【0008】
一実施形態に係る3次元オブジェクト認識モデルの構成を例示的に示す図である。
一実施形態に係るビジョン-言語モデルの構成を例示的に示す図である。
一実施形態に係る他の幾何学的な特性を有する同じクラスのオブジェクトを例示的に示す。
一実施形態に係るマルチモーダルデコーディングモデルの動作を例示的に示す図である。
一実施形態に係るビジョン-言語モデルのトレーニング過程を例示的に示す図である。
一実施形態に係る3次元オブジェクト認識モデルのトレーニング過程を例示的に示す図である。
一実施形態に係る3次元オブジェクト認識方法を例示的に示すフローチャートである。
一実施形態に係る電子装置の構成を例示的に示すブロック図である。
一実施形態に係る車両の構成を例示的に示すブロック図である。
【発明を実施するための形態】
【0009】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0010】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素にも命名することができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
三星電子株式会社
半導体装置
4日前
三星電子株式会社
イメージセンサ
7日前
三星電子株式会社
半導体パッケージ
4日前
三星電子株式会社
3次元オブジェクト認識方法及び装置
今日
三星電子株式会社
解析装置、解析方法、およびプログラム
2日前
三星電子株式会社
解析装置、解析方法、およびプログラム
2日前
三星電子株式会社
解析装置、解析方法、およびプログラム
2日前
三星電子株式会社
半導体パッケージ、及び半導体パッケージの製造方法
4日前
三星電子株式会社
動画エンコーダ、動画エンコーディング方法及び動画デコーダ
2日前
三星電子株式会社
テスト装置、テスト装置の動作方法及び半導体素子テストシステム
4日前
三星電子株式会社
レジスト組成物、及びそのレジスト組成物を利用したパターン形成方法
4日前
三星電子株式会社
レジスト組成物、及びそのレジスト組成物を利用したパターン形成方法
4日前
個人
物品給付年金
8日前
個人
政治のAI化
3日前
個人
在宅介護システム
21日前
個人
人物再現システム
1か月前
個人
RFタグ読取装置
21日前
個人
AI飲食最適化プラグイン
29日前
キヤノン株式会社
通信装置
9日前
有限会社ノア
データ読取装置
1か月前
個人
電話管理システム及び管理方法
1か月前
個人
全アルゴリズム対応型プログラム
4日前
キヤノン株式会社
画像処理装置
1日前
大同特殊鋼株式会社
輝線検出方法
3日前
個人
日誌作成支援システム
1か月前
株式会社CROSLAN
支援装置
21日前
シャープ株式会社
電子機器
3日前
トヨタ自動車株式会社
欠け検査装置
3日前
株式会社アジラ
データ転送システム
3日前
長屋印刷株式会社
画像形成システム
21日前
ミサワホーム株式会社
情報処理装置
8日前
ミサワホーム株式会社
宅配ロッカー
今日
ひびきの電子株式会社
認証システム
23日前
トヨタ自動車株式会社
管理装置
今日
株式会社ユピテル
電子機器及びプログラム等
11日前
オベック実業株式会社
端末用スタンド
4日前
続きを見る
他の特許を見る