特許ウォッチ

公開番号2025111698
公報種別公開特許公報(A)
公開日2025-07-30
出願番号2025074452,2021132919
出願日2025-04-28,2021-08-17
発明の名称学習装置、方法およびプログラム、並びに情報処理装置、方法およびプログラム
出願人富士フイルム株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06V 10/82 20220101AFI20250723BHJP(計算;計数)
要約【課題】画像と文とを高精度に対応づけできるようにする学習装置、方法およびプログラム並びに情報処理装置方法およびプログラムを提供する。
【解決手段】医療情報システムにおいて、学習装置7は、第1ニューラルネットワークにより、画像に含まれるオブジェクトについての第1特徴量を導出する第1導出部22と、画像に含まれるオブジェクトに関する記載を含む文を構造化することにより文についての構造化情報を導出する構造化情報導出部23と、第2ニューラルネットワークにより、構造化情報から文についての第2特徴量を導出する第2導出部24と、を備え、画像に含まれるオブジェクトと文に記載されたオブジェクトとが対応する場合には、第1特徴量及び第2特徴量が属する特徴空間において導出される第1特徴量と第2特徴量との距離が小さくなるように第1ニューラルネットワーク及び第2ニューラルネットワークを学習する。
【選択図】図4
特許請求の範囲【請求項１】
少なくとも１つのプロセッサを備え、
前記プロセッサは、
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第１導出モデルにより、対象画像に含まれる１以上のオブジェクトについての第１特徴量を導出し、
オブジェクトに関する記載を含む１以上の対象文を構造化することにより前記対象文についての構造化情報を導出し、
前記学習装置により構築された第２導出モデルにより、前記対象文についての構造化情報から前記対象文についての第２特徴量を導出し、
導出された前記第１特徴量および前記第２特徴量の特徴空間における距離に基づいて前記第２特徴量に対応する前記第１特徴量を特定し、
前記特定された第１特徴量を導出したオブジェクトを前記対象画像において他の領域と区別して表示する情報処理装置。
続きを表示（約 4,200 文字）【請求項２】
少なくとも１つのプロセッサを備え、
前記プロセッサは、
オブジェクトに関する記載を含む対象文の入力を受け付け、
前記対象文を構造化することにより前記対象文についての構造化情報を導出し、
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第２導出モデルにより、前記対象文についての構造化情報から前記入力された対象文についての第２の特徴量を導出し、
前記学習装置により構築された第１導出モデルにより導出された、複数の参照画像のそれぞれに含まれる１以上のオブジェクトについての第１特徴量が前記参照画像のそれぞれと対応づけられたデータベースを参照することにより、前記複数の参照画像についての前記第１特徴量と前記導出された第２特徴量との特徴空間における距離に基づいて前記第２特徴量に対応する少なくとも１つの前記第１特徴量を特定し、
前記特定された第１特徴量と対応づけられた参照画像を特定する情報処理装置。
【請求項３】
前記プロセッサは、前記第１特徴量との対応づけに寄与した固有表現を通知する請求項１または２に記載の情報処理装置。
【請求項４】
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第１導出モデルにより、対象画像に含まれる１以上のオブジェクトについての第１特徴量を導出し、
オブジェクトに関する記載を含む１以上の対象文を構造化することにより前記対象文についての構造化情報を導出し、
前記学習装置により構築された第２導出モデルにより、前記対象文についての構造化情報から前記対象文についての第２特徴量を導出し、
導出された前記第１特徴量および前記第２特徴量の特徴空間における距離に基づいて前記第２特徴量に対応する前記第１特徴量を特定し、
前記特定された第１特徴量を導出したオブジェクトを前記対象画像において他の領域と区別して表示する情報処理方法。
【請求項５】
オブジェクトに関する記載を含む対象文の入力を受け付け、
前記対象文を構造化することにより前記対象文についての構造化情報を導出し、
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第２導出モデルにより、前記対象文についての構造化情報から前記入力された対象文についての第２の特徴量を導出し、
前記学習装置により構築された第１導出モデルにより導出された、複数の参照画像のそれぞれに含まれる１以上のオブジェクトについての第１特徴量が前記参照画像のそれぞれと対応づけられたデータベースを参照することにより、前記複数の参照画像についての前記第１特徴量と前記導出された第２特徴量との特徴空間における距離に基づいて前記第２特徴量に対応する少なくとも１つの前記第１特徴量を特定し、
前記特定された第１特徴量と対応づけられた参照画像を特定する情報処理方法。
【請求項６】
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第１導出モデルにより、対象画像に含まれる１以上のオブジェクトについての第１特徴量を導出する手順と、
オブジェクトに関する記載を含む１以上の対象文を構造化することにより前記対象文についての構造化情報を導出する手順と、
前記学習装置により構築された第２導出モデルにより、前記対象文についての構造化情報から前記対象文についての第２特徴量を導出する手順と、
導出された前記第１特徴量および前記第２特徴量の特徴空間における距離に基づいて前記第２特徴量に対応する前記第１特徴量を特定する手順と、
前記特定された第１特徴量を導出したオブジェクトを前記対象画像において他の領域と区別して表示する手順とをコンピュータに実行させる情報処理プログラム。
【請求項７】
オブジェクトに関する記載を含む対象文の入力を受け付ける手順と、
前記対象文を構造化することにより前記対象文についての構造化情報を導出する手順と、
学習装置であって、
第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、前記文についての構造化情報を導出し、
第２ニューラルネットワークにより、前記構造化情報から前記文についての第２特徴量を導出し、
前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応する場合には、前記第１特徴量および前記第２特徴量が属する特徴空間において、前記画像に含まれるオブジェクトと前記文に記載されたオブジェクトとが対応しない場合よりも、導出される前記第１特徴量と前記第２特徴量との距離が小さくなるように前記第１ニューラルネットワークおよび前記第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する学習装置、
によって構築された第２導出モデルにより、前記対象文についての構造化情報から前記入力された対象文についての第２の特徴量を導出する手順と、
前記学習装置により構築された第１導出モデルにより導出された、複数の参照画像のそれぞれに含まれる１以上のオブジェクトについての第１特徴量が前記参照画像のそれぞれと対応づけられたデータベースを参照することにより、前記複数の参照画像についての前記第１特徴量と前記導出された第２特徴量との特徴空間における距離に基づいて前記第２特徴量に対応する少なくとも１つの前記第１特徴量を特定する手順と、
前記特定された第１特徴量と対応づけられた参照画像を特定する手順とをコンピュータに実行させる情報処理プログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、学習装置、方法およびプログラム、並びに情報処理装置、方法およびプログラムに関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
ディープラーニング等により機械学習がなされた学習済みモデルを用いて画像から抽出した特徴ベクトルのような特徴量が属する特徴空間を構築する手法が提案されている。例えば非特許文献１には、画像およびテキストのそれぞれから特徴量を抽出し、特徴量に基づいて画像とテキストとの関係性を推定する手法が提案されている。
【０００３】
また、テキストデータを解析して単語データを取得し、単語データに基づいて画像中の物体を特定する手法も提案されている（特許文献１参照）。
【先行技術文献】
【特許文献】
【０００４】
特開２０２０－０１３５９４号公報
【非特許文献】
【０００５】
Stacked Cross Attention for Image-Text Matching、Kuang-Huei Leeら、21 Mar 2018、arXiv:1803.08024
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ところで、画像についてその内容を文として記載した場合、内容は同一であっても記載した人に応じて表現の仕方が異なる。このため、医用画像についての所見文は、同一の所見であっても医師に応じて表現の仕方が異なる。例えば、右肺の区域Ｓ６に充実型の結節があり、そのサイズが１０ｍｍであり、かつ境界が不明瞭である所見を呈する医用画像についての所見文は、それを記載する医師に応じて、「右肺Ｓ６に充実型結節を認める。サイズは１０ｍｍ。境界はやや不明瞭である。」、「右肺Ｓ６に１０ｍｍ大の充実型結節を認める。辺縁は比較的不明瞭である。」、および「右下葉Ｓ６にφ１０ｍｍの充実型結節。境界はやや不明瞭。」のように表現の仕方が異なるものとなる。このように、所見文等の文は内容が同一であっても、表現の仕方が異なることからばらつきが非常に多いものとなる。このように多様な表現を有する文から精度よく特徴量を導出できるモデルを構築するためには、大量の教師データが必要となる。
【０００７】
しかしながら、文の数は限りがあるため、大量の教師データを用意することが困難である。このため、画像と文とを高精度に対応づけることができる学習済みモデルを構築することは困難である。
【０００８】
本開示は上記事情に鑑みなされたものであり、画像と文とを高精度に対応づけできるようにすることを目的とする。
【課題を解決するための手段】
【０００９】
本開示による学習装置は、少なくとも１つのプロセッサを備え、
プロセッサは、第１ニューラルネットワークにより、画像に含まれるオブジェクトについての第１特徴量を導出し、
画像に含まれるオブジェクトに関する記載を含む文を構造化することにより、文についての構造化情報を導出し、
第２ニューラルネットワークにより、構造化情報から文についての第２特徴量を導出し、
画像に含まれるオブジェクトと文に記載されたオブジェクトとが対応する場合には、第１特徴量および第２特徴量が属する特徴空間において、画像に含まれるオブジェクトと文に記載されたオブジェクトとが対応しない場合よりも、導出される第１特徴量と第２特徴量との距離が小さくなるように第１ニューラルネットワークおよび第２ニューラルネットワークを学習することにより、画像に含まれるオブジェクトについての特徴量を導出する第１導出モデルおよびオブジェクトに関する記載を含む文についての特徴量を導出する第２導出モデルを構築する。
【００１０】
なお、本開示による学習装置においては、プロセッサは、画像に含まれるオブジェクトと文に記載されたオブジェクトとが対応しない場合には、特徴空間において、画像に含まれるオブジェクトと文に記載されたオブジェクトとが対応する場合よりも、導出される第１特徴量と第２特徴量との距離が大きくなるように、第１ニューラルネットワークおよび第２ニューラルネットワークを学習するものであってもよい。
（【００１１】以降は省略されています）

関連特許