TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025108996
公報種別
公開特許公報(A)
公開日
2025-07-24
出願番号
2024002621
出願日
2024-01-11
発明の名称
マーキング方法及びプログラム
出願人
富士通株式会社
代理人
弁理士法人太陽国際特許事務所
主分類
G06V
10/82 20220101AFI20250716BHJP(計算;計数)
要約
【課題】元の画像に含まれる文字や記号との混同を回避したマーキングを付与する。
【解決手段】第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【選択図】図3
特許請求の範囲
【請求項1】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータが実行するマーキング方法。
続きを表示(約 720 文字)
【請求項2】
前記第1画像から前記文字又は記号を検出することは、前記マーキングに使用する文字又は記号として予め定めた種別の文字又は記号を検出することを含む請求項1に記載のマーキング方法。
【請求項3】
前記検出された数が最小の種別の文字又は記号には、前記予め定めた種別の文字又は記号のうち、検出数が0の種別の文字又は記号を含む請求項2に記載のマーキング方法。
【請求項4】
前記第1画像から前記文字又は記号を検出することは、前記第1画像に物体検出アルゴリズムを適用して、前記予め定めた種別の文字又は記号を含む物体と一致する物体を検出することを含む請求項2又は請求項3に記載のマーキング方法。
【請求項5】
前記大規模マルチモーダルモデルは、前記マーキングに使用する種別の文字又は記号を認識可能な機械学習モデルである請求項1~請求項3のいずれか1項に記載のマーキング方法。
【請求項6】
第1画像から文字又は記号を検出し、
検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択し、
前記第1画像を物体に相当する領域毎に分割し、
前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与し、
前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する、
ことを含む処理をコンピュータに実行させるためのマーキングプログラム。
発明の詳細な説明
【技術分野】
【0001】
開示の技術は、マーキング方法、及びマーキングプログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
従来、機械学習モデルに入力する画像に対する前処理として、文字や記号等のマーキングを付すことが行われている。例えば、原稿の文書画像から所望の文書要素の箇所のみを取り出して構成した文書画像(サマリや目次)を自動的に作成する文書処理装置が提案されている。この装置は、文書画像を複数の文書要素に分割し、分割された各々の文書要素に、タイトル、著者等の文書要素の意味付けを表す識別子を付与する。そして、この装置は、識別子が付与された要素群から、サマリ作成や目次作成等に必要な識別子を有する要素を抽出し、抽出された要素に対応する部分画像を基に出力画像を生成する。
【0003】
また、ビジュアルプロンプトにおける画像理解の精度向上を図る技術も提案されている。この技術は、インタラクティブセグメンテーションモデルを使用して、画像を様々な粒度レベルで領域に分割し、各領域にマーキングを付与し、付与した識別子を元の画像に重畳した画像を大規模マルチモーダルモデルへの入力とする。
【先行技術文献】
【特許文献】
【0004】
特開平5-342326号公報
【非特許文献】
【0005】
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao, "Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V," arXiv:2310.11441v2 [cs.CV] 6 Nov 2023.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、画像にマーキングを重畳する従来技術では、大規模マルチモーダルモデルにおける画像認識の際に、元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題がある。この従来技術には、元の画像コンテンツと競合を避けるようなマーキングを付与する旨の記載はあるが、その具体的手法については開示されていない。
【0007】
また、上記従来技術の文書処理装置は、大規模マルチモーダルモデルを用いたビジュアルプロンプトとは関係ないため、上記の元の画像に含まれる文字や記号と、付与したマーキングとの混同が生じる可能性がある、という問題を解決することができない。
【0008】
一つの側面として、開示の技術は、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第1画像から文字又は記号を検出し、検出した文字又は記号を種別毎にカウントし、検出された数が最小の種別の文字又は記号を、マーキングに使用する文字又は記号の種別として選択する。また、開示の技術は、前記第1画像を物体に相当する領域毎に分割し、前記第1画像の分割された前記領域の各々に、選択された前記種別の文字又は記号をマーキングとして付与する。そして、開示の技術は、前記第1画像に領域の分割結果及び付与されたマーキングが重畳された第2画像を、ユーザから入力されたテキストと共に、大規模マルチモーダルモデルに入力する。
【発明の効果】
【0010】
一つの側面として、元の画像に含まれる文字や記号との混同を回避したマーキングを付与することができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
測定装置
1か月前
富士通株式会社
光伝送装置
1か月前
富士通株式会社
画像変換機器と方法
1か月前
富士通株式会社
車線区分装置及び方法
3か月前
富士通株式会社
量子デバイス上の誤り訂正
2か月前
富士通株式会社
商品状態検出装置及び方法
3か月前
富士通株式会社
商品棚の検出装置及び方法
3か月前
富士通株式会社
信号相関量の確定装置と方法
24日前
富士通株式会社
光伝送装置および光伝送方法
1か月前
富士通株式会社
データセット特徴タイプ推論
24日前
富士通株式会社
マーキング方法及びプログラム
3日前
富士通株式会社
キャッシュメモリ搭載演算装置
2か月前
富士通株式会社
光受信装置及び光伝送システム
2か月前
富士通株式会社
制御プログラム、および制御方法
1か月前
富士通株式会社
光伝送装置および光伝送システム
25日前
富士通株式会社
双方向光リンクの異常モニタリング
27日前
富士通株式会社
伝送路監視装置及び伝送路監視方法
2か月前
富士通株式会社
バイアスのための生成人工知能の検査
17日前
富士通株式会社
大規模言語モデルを使用したデータ調整
24日前
富士通株式会社
制御プログラム、制御方法及び決済装置
20日前
富士通株式会社
情報処理プログラムおよび情報処理方法
24日前
富士通株式会社
人工知能ベースのサステナブル材料設計
2か月前
富士通株式会社
通信管理装置および無線リソース予測方法
1か月前
富士通株式会社
圧縮プログラム、圧縮方法および圧縮装置
1か月前
富士通株式会社
管理装置、管理方法および管理プログラム
1か月前
富士通株式会社
量子デバイス及び量子デバイスの制御方法
3日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
27日前
富士通株式会社
ホモグラフィの取得装置、方法及び電子機器
1か月前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
1か月前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
3か月前
富士通株式会社
無線アクセスネットワークプロビジョニング
24日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
1か月前
富士通株式会社
推定プログラム、推定方法及び情報処理装置
2か月前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
24日前
富士通株式会社
光伝送装置、光伝送方法、及び光伝送システム
2か月前
富士通株式会社
機械学習アプローチを用いたラマンポンプ設計
2か月前
続きを見る
他の特許を見る