TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025131265
公報種別
公開特許公報(A)
公開日
2025-09-09
出願番号
2024028896
出願日
2024-02-28
発明の名称
情報処理装置、情報処理方法、生成方法、学習モデル、プログラム及び記憶媒体
出願人
本田技研工業株式会社
,
個人
代理人
弁理士法人大塚国際特許事務所
主分類
G06T
7/11 20170101AFI20250902BHJP(計算;計数)
要約
【課題】画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能になる。
【解決手段】画像を入力情報として取得する取得手段と、入力情報から特徴量を抽出し、抽出した特徴量に基づいて画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、処理手段と、を含む。ここで、予測手段は、特定の領域を囲む複数の点の座標と、複数の点の各点の次の点を示す情報とを含む特定の領域を示す予測結果を出力し、処理手段は、特定の領域を囲む複数の点の座標と、複数の点の各点の次の点を示す情報とを含む予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて1つ以上の機械学習モデルを学習させる。
【選択図】図4
特許請求の範囲
【請求項1】
画像を入力情報として取得する取得手段と、
前記入力情報から特徴量を抽出し、前記抽出した特徴量に基づいて前記画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、
処理手段と、を含み、
前記予測手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記特定の領域を示す予測結果を出力し、
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする情報処理装置。
続きを表示(約 1,200 文字)
【請求項2】
前記取得手段は、前記入力情報として、自然言語で表された場所の指定を含む言語情報を更に取得し、
前記予測手段は、前記画像から抽出した画像特徴量と前記言語情報から抽出した言語特徴量とに基づいて、前記場所の指定に対応する前記画像内の目標領域を前記特定の領域として予測する、ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記損失関数は、前記予測結果における前記特定の領域を囲む前記複数の点と、前記正解データにおける前記特定の領域を囲む複数の点とに対する最適輸送コストに基づく、ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記損失関数は、前記特定の領域を囲む複数の点の座標に基づく損失と、前記複数の点の各点の次の点を示すベクトルに対するベクトル間の類似度に基づく損失とを含む、ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報と、前記特定の領域内の中心点の座標とを含む前記予測結果を出力する、ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報と、前記特定の領域内の中心点の座標とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく1つの損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む予測結果の第1の部分と、正解データのうちの当該予測結果の前記第1の部分に対する正解との相違に基づく第1の損失関数と、前記特定の領域内の中心点の座標を含む予測結果の第2の部分と、正解データのうちの当該予測結果の第2の部分に対する正解との相違に基づく第2の損失関数とを用いて、前記1つ以上の機械学習モデルを学習させる、ことを特徴とする請求項5に記載の情報処理装置。
【請求項8】
前記特定の領域内の中心点の座標は、前記画像内の物標の位置から前記特定の領域内の中心点の座標へのベクトルの情報で表される、ことを特徴とする請求項5に記載の情報処理装置。
【請求項9】
前記複数の点の各点の次の点を示す情報は、前記複数の点の各点から次の点へのベクトルで表される、ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記予測手段は、前記入力情報に基づく、前記画像特徴量と前記言語特徴量とを融合した融合特徴量を生成し、前記融合特徴量に基づいて、前記画像内の特定の領域を予測する、ことを特徴とする請求項2に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、生成方法、学習モデル、プログラム及び記憶媒体に関する。
続きを表示(約 2,000 文字)
【背景技術】
【0002】
近年、画像に含まれる被写体の領域を予測するセグメンテーションや、自然言語で与えられるクエリに対応する画像内の特定の領域を予測するビジュアルグラウンディングなど、画像内の特定の領域を予測する技術が知られている。
【0003】
非特許文献1では、入力画像から得られる画像特徴量と自然言語文から生成したプロンプトとを融合させ、当該融合させた情報にトランスフォーマエンコーダを介在させて画像内の画素毎のクラス分類を行うことにより、自然言語に対応する画像内の領域を予測する。非特許文献2では、自然言語文のクエリに対応する画像内の領域の各画素を予測する代わりに、クエリに対応する画像内の領域を取り囲む点群(領域の外周の点群)を予測する技術を提案している。
【先行技術文献】
【非特許文献】
【0004】
Bin Yan, 外6名, 「Universal Instance Perception as Object Discovery and Retrieval」,arXiv:2303.06674v2 [cs.CV] 2023年8月17日
Chaoyang Zhu, 外9名, 「SeqTR: A Simple yet Universal Network for Visual Grounding」,arXiv:2203.16265v2 [cs.CV] 2022年7月24日
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1で提案される技術では、画像内の画素毎のクラス分類を行うため、高い精度が得られる反面、計算コストが高くなり処理時間がかかる課題がある。他方、非特許文献2で提案される技術では、領域を取り囲む点群のみを予測するため、画素毎のクラス分類を行う場合と比べて計算コストや処理時間を低減することができるが、予測される領域の精度が課題となる。
【0006】
本発明は、上記課題に鑑みてなされ、その目的は、画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能な技術を実現することである。
【課題を解決するための手段】
【0007】
本発明によれば、
画像を入力情報として取得する取得手段と、
前記入力情報から特徴量を抽出し、前記抽出した特徴量に基づいて前記画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、
処理手段と、を含み、
前記予測手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記特定の領域を示す予測結果を出力し、
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする情報処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能になる。
【図面の簡単な説明】
【0009】
実施形態に係る移動体の構成例を示す図(1)
実施形態に係る移動体の構成例を示す図(2)
実施形態に係る移動体の制御系の構成例を示すブロック図
実施形態に係る制御ユニット130の機能構成例を示す図
実施形態に係る領域予測処理に用いるモデルについて説明する図
実施形態に係る予測結果の他の例を説明する図
実施形態に係る領域予測処理に用いる機械学習モデルを学習させる一連の動作を示すフローチャート
実施形態に係る領域予測処理に用いる機械学習モデルを学習させる他の一連の動作を示すフローチャート
実施形態に係る領域予測処理の推論段階の一連の動作を示すフローチャート
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
裁判のAI化
1か月前
個人
工程設計支援装置
29日前
個人
フラワーコートA
1か月前
個人
情報処理システム
2か月前
個人
検査システム
2か月前
個人
為替ポイント伊達夢貯
9日前
個人
介護情報提供システム
1か月前
個人
冷凍食品輸出支援構造
9日前
個人
設計支援システム
1か月前
個人
表変換編集支援システム
2日前
個人
設計支援システム
1か月前
個人
携帯情報端末装置
1か月前
個人
結婚相手紹介支援システム
26日前
キヤノン電子株式会社
携帯装置
2か月前
個人
不動産売買システム
2か月前
個人
知財出願支援AIシステム
9日前
株式会社サタケ
籾摺・調製設備
2か月前
個人
行動時間管理システム
4日前
株式会社カクシン
支援装置
1か月前
個人
パスワード管理支援システム
2日前
個人
AIによる情報の売買の仲介
11日前
個人
AIキャラクター制御システム
2日前
日本精機株式会社
施工管理システム
11日前
株式会社アジラ
進入判定装置
15日前
個人
アンケート支援システム
1か月前
個人
パスポートレス入出国システム
15日前
個人
備蓄品の管理方法
2か月前
キヤノン株式会社
情報処理装置
2か月前
個人
冷凍加工連携型農場運用システム
9日前
キヤノン株式会社
情報処理装置
2か月前
大阪瓦斯株式会社
住宅設備機器
23日前
個人
食事受注会計処理システム
16日前
サクサ株式会社
中継装置
1か月前
サクサ株式会社
中継装置
2か月前
個人
ジェスチャーパッドのガイド部材
1か月前
個人
社会還元・施設向け供給支援構造
2日前
続きを見る
他の特許を見る