発明の詳細な説明【技術分野】 【0001】 本発明は、複数の情報を集約して提供するための情報集約装置、情報集約方法及び情報集約プログラムに関する。 続きを表示(約 1,900 文字)【背景技術】 【0002】 従来、多数の情報提供者から得られる情報を複数の利用者で共有するためのレポジトリ(データベース)が活用されている。 例えば、製品を構成する部品等の調達から販売に至るまでのサプライチェーンにおける製品の脆弱性情報は、この製品の部品情報(Bill of Materials, BOM)、及び各部品に紐づく脆弱性情報等から構成される。これらの情報は、製品を構成する部品の供給者それぞれから提供されることがあるため、脆弱性情報を集約する際に情報の粒度や形式が統一されておらず、集約が難しかった。 非特許文献1では、知識グラフを用いて情報を集約する方法が提案されている。情報を特定の形式で記述することで、複数の情報を関連づけて知識グラフを構成することにより、個々の情報を確認するだけでは難しかった、サプライチェーンの俯瞰的な情報の取得が可能となる。 【先行技術文献】 【非特許文献】 【0003】 W. Zhang et al., "The construction of a domain knowledge graph and its application in supply chain risk analysis," IEEE International Conference on E-Business Engineering (ICEBE), 2019. A. Radford et al., "Improving language understanding by generative pre-training," 2018, <https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf>. 【発明の概要】 【発明が解決しようとする課題】 【0004】 しかしながら、従来技術では、情報を集約するために共通の形式に整形する必要があった。サプライチェーンでは、多種多様な製品について多数の事業者が情報を登録することから、これらの情報を共通の形式で記述することは難しい。仮に標準化等により共通の形式で記述されたとしても、個別具体的な情報は、依然として補足情報として自然言語で記述されることもあるため、このような構造化されていない情報を含めて集約することは難しかった。例えば、あるセンサが周囲の強い光に脆弱なことを説明するとき、「強い光」や「明るい光」のような表記ゆれを、ルールベースのような機械的な方法で集約することは難しかった。 【0005】 本発明は、重複する複数の情報を適切に集約して提供できる情報集約装置、情報集約方法及び情報集約プログラムを提供することを目的とする。 【課題を解決するための手段】 【0006】 本発明に係る情報集約装置は、複数種別の情報が互いに紐付けられたレポジトリから、指定された識別子に紐づく情報の集合を抽出するデータ抽出部と、前記集合のうち、同一種別の複数の情報について、当該複数の情報それぞれに含まれる所定の項目の文字列を、言語モデルを用いてベクトルに変換するベクトル化部と、前記ベクトルそれぞれの間の距離に基づいて、所定のクラスタリング手法を用いて前記文字列をクラスタに分類する分類部と、前記クラスタ毎に、当該クラスタに分類された前記文字列を結合した後、生成言語モデルを用いて要約文を生成するテキスト生成部と、前記要約文を、前記所定の項目を集約した情報とし、前記集合を整形して出力する出力部と、を備える。 【0007】 前記情報集約装置は、前記クラスタ毎に、前記複数の情報それぞれに含まれる、前記所定の項目とは異なる他の項目の値を統計処理した代表値を算出する代表値算出部を備え、前記出力部は、前記代表値を、前記他の項目を集約した情報とし、前記集合を整形して出力してもよい。 【0008】 前記テキスト生成部は、前記クラスタ毎の重心ベクトルからの距離の近さに応じて、前記複数の情報に重みを付与したうえで集約してもよい。 【0009】 前記テキスト生成部は、前記重みに比例する回数分だけ前記文字列を繰り返し結合した後、生成言語モデルを用いて要約文を生成してもよい。 【0010】 前記テキスト生成部は、前記クラスタ毎の重心ベクトルを入力として前記言語モデルを用いて生成したテキストを前記要約文としてもよい。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する