TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025156149
公報種別
公開特許公報(A)
公開日
2025-10-14
出願番号
2025052377
出願日
2025-03-26
発明の名称
移動体制御システム、情報処理装置、移動体制御システムのための方法、機械学習モデルを生成する方法
出願人
本田技研工業株式会社
,
個人
代理人
弁理士法人大塚国際特許事務所
主分類
G06V
10/25 20220101AFI20251002BHJP(計算;計数)
要約
【課題】相対的な位置関係を含むユーザの指示に対応する画像上の領域を予測する場合に、予測精度を向上させることが可能になる。
【解決手段】 本開示に係る移動体制御システムは、メモリと、1つ以上のプロセッサとを含み、メモリに記憶される命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、画像を取得することと、相対的な位置関係を含んだ自然言語によるユーザの指示を取得することと、1つ以上の機械学習モデルを用いて、画像に撮影されたシーンの特徴量を示す画像特徴量と、画像に撮影されたシーンの深度と、ユーザの指示に係る言語的な特徴量を示す言語特徴量とを融合させた融合特徴量に基づいて、ユーザの指示が示すシーン内の位置に対応する画像内の領域を予測することと、をさせる。
【選択図】図4
特許請求の範囲
【請求項1】
移動体制御システムであって、
メモリと、
1つ以上のプロセッサとを含み、
前記メモリに記憶される命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
画像を取得することと、
相対的な位置関係を含んだ自然言語によるユーザの指示を取得することと、
1つ以上の機械学習モデルを用いて、前記画像に撮影されたシーンの特徴量を示す画像特徴量と、前記画像に撮影されたシーンの深度と、前記ユーザの指示に係る言語的な特徴量を示す言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測することと、をさせる移動体制御システム。
続きを表示(約 2,600 文字)
【請求項2】
前記メモリに記憶される命令は、前記1つ以上のプロセッサに、
前記1つ以上の機械学習モデルを用いて、前記画像特徴量と前記深度と前記言語特徴量とを前記画像の所定の単位領域ごとに融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測すること、をさせる請求項1に記載の移動体制御システム。
【請求項3】
前記メモリに記憶される命令は、前記1つ以上のプロセッサに、
前記1つ以上の機械学習モデルを用いて、
前記画像から、前記画像に撮影されたシーンの特徴量を示す画像特徴量を抽出することと、
前記画像から、前記画像に撮影されたシーンの深度を予測することと、
前記ユーザの指示に係る言語的な特徴量を示す言語特徴量を抽出することと、
前記画像特徴量と前記深度と前記言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測することと、をさせる請求項1に記載の移動体制御システム。
【請求項4】
前記命令は、前記1つ以上のプロセッサに、
前記1つ以上の機械学習モデルを用いて、前記画像の所定の単位領域ごとに前記画像特徴量と前記深度とを連結し、前記所定の単位領域ごとの前記連結された特徴量に前記言語特徴量を融合させて、前記融合特徴量を生成する、ことを特徴とする請求項2に記載の移動体制御システム。
【請求項5】
前記1つ以上の機械学習モデルは、前記所定の単位領域ごとの前記連結された特徴量に前記言語特徴量を融合させるPixel-Wise Attention Mechanism(PWAM)を更に有する、ことを特徴とする請求項4に記載の移動体制御システム。
【請求項6】
移動体制御システムであって、
1つ以上の機械学習モデルの処理を実行する1つ以上のプロセッサとを含み、
前記1つ以上の機械学習モデルは、
取得された画像から、前記画像に撮影されたシーンの特徴量を示す画像特徴量を抽出する第1機械学習モデルと、
前記画像から、前記画像に撮影されたシーンの深度を予測する第2機械学習モデルと、
相対的な位置関係を含んだ自然言語によるユーザの指示について、言語的な特徴量を示す言語特徴量を抽出する第3機械学習モデルと、
前記画像特徴量と前記深度と前記言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測する第4機械学習モデルと、を含むことを特徴とする移動体制御システム。
【請求項7】
1つ以上の機械学習モデルを学習させる情報処理装置であって、
メモリと、
1つ以上のプロセッサとを含み、
前記メモリに記憶される命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
画像と、相対的な位置関係を含んだ自然言語によるユーザの指示と、前記ユーザの指示が示す画像内の領域を示す正解データとを取得することと、
前記1つ以上の機械学習モデルを用いて、前記画像と、前記ユーザの指示とに基づいて、前記ユーザの指示が示す、前記画像に撮影されたシーン内の位置に対応する画像内の領域を予測することと、
予測された前記画像内の領域と、前記正解データが示す画像内の領域との差分に基づく損失関数を用いて、前記1つ以上の機械学習モデルを学習させることと、を含み、
前記1つ以上の機械学習モデルは、前記画像に撮影されたシーンの特徴量を示す画像特徴量と、前記画像に撮影されたシーンの深度と、前記ユーザの指示に係る言語的な特徴量を示す言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測する、ことを特徴とする情報処理装置。
【請求項8】
前記損失関数は、バイナリクロスエントロピー損失を算出する関数を含む、ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記1つ以上の機械学習モデルを学習させることは、予測された前記画像内の領域と、前記正解データが示す前記ユーザの指示が示す画像内の領域との差分を、前記画像の領域のうちの下側の半分の領域において算出した損失関数を用いることを含む、ことを特徴とする請求項7に記載の情報処理装置。
【請求項10】
1つ以上の機械学習モデルを学習させる情報処理装置であって、
メモリと、
1つ以上のプロセッサとを含み、
前記メモリに記憶される命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
画像と、相対的な位置関係を含んだ自然言語によるユーザの指示と、前記ユーザの指示が示す画像内の領域を示す正解データとを取得することと、
前記1つ以上の機械学習モデルを用いて、前記画像と、前記ユーザの指示とに基づいて、前記ユーザの指示が示す、前記画像に撮影されたシーン内の位置に対応する画像内の領域を予測することと、
予測された前記画像内の領域と、前記正解データが示す前記ユーザの指示が示す画像内の領域との差分に基づく損失関数を用いて、前記1つ以上の機械学習モデルを学習させることと、を含み、
前記1つ以上の機械学習モデルは、
取得された画像から、前記画像に撮影されたシーンの特徴量を示す画像特徴量を抽出する第1機械学習モデルと、
前記画像から、前記画像に撮影されたシーンの深度を予測する第2機械学習モデルと、
前記ユーザの指示について、言語的な特徴量を示す言語特徴量を抽出する第3機械学習モデルと、
前記画像特徴量と前記深度と前記言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測する第4機械学習モデルと、を含むことを特徴とする情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、移動体制御システム、情報処理装置、移動体制御システムのための方法、機械学習モデルを生成する方法に関する。
続きを表示(約 2,300 文字)
【背景技術】
【0002】
近年、画像に含まれる被写体の領域を予測する参照画像セグメンテーション(Referring image segmentation)や、自然言語で与えられる指示に対応する画像内の特定の領域を予測するビジュアルグラウンディング(visual grounding)など、画像内の特定の領域を予測する技術が知られている。
【0003】
非特許文献1では、自然言語によるユーザの発話と関連性の高い画像内の被写体を認識する技術を開示している。非特許文献1では、発話と関連性の高いRGB画像内のピクセルを示す第1のヒートマップと、発話と関連性の高い深度画像のピクセルを示す第2のヒートマップとを組み合わせて、クラスタリング処理を行うことにより、発話と関連性の高い被写体を特定する。非特許文献2では、画像特徴量と言語特徴量とを、注意機構(attention mechanism)によって融合させることにより、参照画像セグメンテーションのタスクにおける精度を向上させる技術を開示している。
【先行技術文献】
【非特許文献】
【0004】
Fethiye Irmak Dogan, 外1名, 「Using Depth for Improving Referring Expression Comprehension in Real-World Environments」,arXiv:2107.04658v1 [cs.RO],[online],2021年7月9日,2024年1月18日検索,インターネット<URL:https://www.semanticscholar.org/reader/a66816dd86fdc3c5ecde919246d2ac18b08720b5>
Zhao Yang, 外4名, 「LAVT: Language-Aware Vision Transformer for Referring Image Segmentation」,[online],2024年1月18日検索,インターネット<URL https://openaccess.thecvf.com/content/CVPR2022/papers/Yang_LAVT_Language-Aware_Vision_Transformer_for_Referring_Image_Segmentation_CVPR_2022_paper.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ユーザの指示が「右にある車の前」のように物標との相対的な位置関係を含む場合、RGB画像の画像特徴量に言語特徴量を融合させても、十分な精度が得られない場合がある。
【0006】
本発明は、上記課題に鑑みてなされ、その目的は、相対的な位置関係を含むユーザの指示に対応する画像上の領域を予測する場合に、予測精度を向上させることが可能な技術を実現することである。
【課題を解決するための手段】
【0007】
本発明によれば、
移動体制御システムであって、
メモリと、
1つ以上のプロセッサとを含み、
前記メモリに記憶される命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
画像を取得することと、
相対的な位置関係を含んだ自然言語によるユーザの指示を取得することと、
1つ以上の機械学習モデルを用いて、前記画像に撮影されたシーンの特徴量を示す画像特徴量と、前記画像に撮影されたシーンの深度と、前記ユーザの指示に係る言語的な特徴量を示す言語特徴量とを融合させた融合特徴量に基づいて、前記ユーザの指示が示す前記シーン内の位置に対応する画像内の領域を予測することと、をさせる移動体制御システムが提供される。
【発明の効果】
【0008】
本発明によれば、相対的な位置関係を含むユーザの指示に対応する画像上の領域を予測する場合に、予測精度を向上させることが可能になる。
【図面の簡単な説明】
【0009】
実施形態に係る移動体の構成例を示す図(1)
実施形態に係る移動体の構成例を示す図(2)
実施形態に係る移動体の制御系の構成例を示すブロック図
実施形態に係る制御ユニット130の機能構成例を示す図
実施形態に係る目標領域予測部の構成について説明する図
実施形態に係る目標領域予測部の機械学習モデルを学習させる処理を説明する図
実施形態に係る領域予測処理に用いる機械学習モデルを学習させる一連の動作を示すフローチャート
実施形態に係る領域予測処理の一連の動作を示すフローチャート
実施形態に係る領域予測処理の推論段階の一連の動作を示すフローチャート
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
本田技研工業株式会社
車両
8日前
本田技研工業株式会社
車両
8日前
本田技研工業株式会社
車両
9日前
本田技研工業株式会社
車両
1日前
本田技研工業株式会社
車両
9日前
本田技研工業株式会社
飛行体
9日前
本田技研工業株式会社
固体電池
4日前
本田技研工業株式会社
固体電池
8日前
本田技研工業株式会社
電気機器
9日前
本田技研工業株式会社
電気機器
9日前
本田技研工業株式会社
除草装置
8日前
本田技研工業株式会社
排気装置
8日前
本田技研工業株式会社
排気装置
8日前
本田技研工業株式会社
触媒装置
4日前
本田技研工業株式会社
排気装置
8日前
本田技研工業株式会社
二次電池
4日前
本田技研工業株式会社
電気部品
9日前
本田技研工業株式会社
清掃装置
9日前
本田技研工業株式会社
制御装置
8日前
本田技研工業株式会社
内燃機関
9日前
本田技研工業株式会社
収容装置
9日前
本田技研工業株式会社
内燃機関
8日前
本田技研工業株式会社
発電セル
8日前
本田技研工業株式会社
エンジン
9日前
本田技研工業株式会社
リアクトル
8日前
本田技研工業株式会社
鞍乗型車両
8日前
本田技研工業株式会社
全固体電池
4日前
本田技研工業株式会社
鞍乗型車両
8日前
本田技研工業株式会社
全固体電池
4日前
本田技研工業株式会社
鞍乗型車両
8日前
本田技研工業株式会社
電動船外機
4日前
本田技研工業株式会社
樹脂成型品
9日前
本田技研工業株式会社
電極積層体
8日前
本田技研工業株式会社
鞍乗り型車両
9日前
本田技研工業株式会社
始動制御装置
8日前
本田技研工業株式会社
燃料電池装置
8日前
続きを見る
他の特許を見る