TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025079533
公報種別
公開特許公報(A)
公開日
2025-05-22
出願番号
2023192264
出願日
2023-11-10
発明の名称
学習装置、方法および学習済みモデル
出願人
株式会社東芝
代理人
弁理士法人鈴榮特許綜合事務所
主分類
G06N
20/00 20190101AFI20250515BHJP(計算;計数)
要約
【課題】基盤モデルの性能を向上させることができる。
【解決手段】本実施形態に係る学習装置は、データ取得部と、生成部と、特徴量算出部と、コスト算出部と、更新部とを含む。データ取得部は、入力データがトークン単位に分割された第1トークン列を取得する。生成部は、前記第1トークン列に対してノイズを付加した第2トークン列を生成する。特徴量算出部は、特徴量を抽出するモデルを用いて、前記第1トークン列から第1特徴量を算出し、前記第2トークン列から第2特徴量を算出する。コスト算出部は、前記第2特徴量を前記第1特徴量に近づける場合の輸送コストを算出する。更新部は、前記輸送コストに基づいて前記モデルを更新する。
【選択図】図1
特許請求の範囲
【請求項1】
入力データがトークン単位に分割された第1トークン列を取得するデータ取得部と、
前記第1トークン列に対してノイズを付加した第2トークン列を生成する生成部と、
特徴量を抽出するモデルを用いて、前記第1トークン列から第1特徴量を算出し、前記第2トークン列から第2特徴量を算出する特徴量算出部と、
前記第2特徴量を前記第1特徴量に近づける場合の輸送コストを算出するコスト算出部と、
前記輸送コストに基づいて前記モデルを更新する更新部と、
を具備する学習装置。
続きを表示(約 1,000 文字)
【請求項2】
前記コスト算出部は、最適輸送問題における輸送行列に基づき前記輸送コストを算出する、請求項1に記載の学習装置。
【請求項3】
前記生成部は、前記ノイズを付加する処理として、トークンの並び替え処理とトークンのマスク処理との少なくとも一方を実行する、請求項1に記載の学習装置。
【請求項4】
前記更新部は、前記輸送コストを含むロス関数に基づき前記モデルの訓練の終了判定を実施する、請求項1に記載の学習装置。
【請求項5】
前記輸送コストの算出に関する輸送行列を表示装置でユーザに表示する表示制御部をさらに具備する、請求項1に記載の学習装置。
【請求項6】
前記ユーザから前記輸送行列に基づく前記モデルの訓練に対するフィードバック情報を取得するフィードバック取得部をさらに具備し、
前記コスト算出部は、前記フィードバック情報に基づいて新たな輸送コストを算出する、請求項5に記載の学習装置。
【請求項7】
入力データがトークン単位に分割された第1トークン列を取得し、
前記第1トークン列に対してノイズを付加した第2トークン列を生成し、
特徴量を抽出するモデルを用いて、前記第1トークン列から第1特徴量を算出し、前記第2トークン列から第2特徴量を算出し、
前記第2特徴量を前記第1特徴量に近づける場合の輸送コストを算出し、
前記輸送コストに基づいて前記モデルを更新する、
学習方法。
【請求項8】
入力データを処理して出力データを推論するネットワーク層を具備する学習済みモデルであって、
第1トークン列に対してノイズを付加した第2トークン列を生成する生成工程と、
特徴量を抽出するモデルを用いて、前記第1トークン列から第1特徴量を算出し、前記第2トークン列から第2特徴量を算出する特徴量算出工程と、
前記第2特徴量を前記第1特徴量に近づける場合の輸送コストを算出するコスト算出工程と、
前記輸送コストに基づいて前記モデルを更新する更新工程、
により訓練され、
更新済みのパラメータが割り当てられた前記ネットワーク層に前記入力データを入力して前記出力データを推論するよう、
コンピュータを機能させるための学習済みモデル。
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は、学習装置、方法および学習済みモデルに関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
学習済みモデルを用いて文書分類や情報抽出などのタスクを実行する場合、高い性能を得るためには、目的に応じて特化した目的モデルの構築が必要である。目的モデルを構築する場合、公開された膨大なコーパスで事前に訓練されたモデルを基盤モデルとして、当該モデルをさらに目的に対応したコーパスで訓練する、2段階のアプローチを採用することが多い。
【0003】
目的モデルは、基盤モデルの特性を引き継ぐため、目的モデルの最終的な性能が基盤モデルの性能に依存することがある。さらに、基盤モデルの性能が下流の目的モデルの性能に完全に寄与するわけではなく、性能の値として出現しない潜在的なモデル特性が目的モデルの性能に影響することもある。しかし、このような潜在的なモデル特性をモデルの訓練段階で確認することは難しいため、ユーザからのフィードバックを取得することも難しいという問題がある。
【先行技術文献】
【特許文献】
【0004】
特開2022-2080号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、上述の課題を解決するためになされたものであり、基盤モデルの性能を向上させる学習装置、方法および学習済みモデルを提供することを目的とする。
【課題を解決するための手段】
【0006】
本実施形態に係る学習装置は、データ取得部と、生成部と、特徴量算出部と、コスト算出部と、更新部とを含む。データ取得部は、入力データがトークン単位に分割された第1トークン列を取得する。生成部は、前記第1トークン列に対してノイズを付加した第2トークン列を生成する。特徴量算出部は、特徴量を抽出するモデルを用いて、前記第1トークン列から第1特徴量を算出し、前記第2トークン列から第2特徴量を算出する。コスト算出部は、前記第2特徴量を前記第1特徴量に近づける場合の輸送コストを算出する。更新部は、前記輸送コストに基づいて前記モデルを更新する。
【図面の簡単な説明】
【0007】
第1実施形態に係る学習装置を示すブロック図。
第1実施形態に係る学習装置の動作例を示すフローチャート。
輸送行列の一例を示す図。
輸送行列に対応する関係図の一例を示す図。
第2実施形態に係る学習装置を示すブロック図。
第2実施形態に係る学習装置の動作例を示すフローチャート。
第2実施形態に係るユーザインタフェースの表示例を示す図。
学習装置のハードウェア構成の一例を示す図。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら本実施形態に係る学習装置、方法および学習済みモデルについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
【0009】
(第1実施形態)
第1実施形態に係る学習装置について図1のブロック図を参照して説明する。
第1実施形態に係る学習装置10は、格納部101と、データ取得部102と、分割部103、生成部104と、特徴量算出部105と、コスト算出部106と、更新部107とを含む。
【0010】
格納部101は、機械学習モデル、機械学習モデルの訓練に用いる入力データ、訓練が終了した学習済みモデルなどを格納する。機械学習モデルは、自然言語処理において特徴量を抽出可能なモデルであり、例えば、BERT(Bidirectional Encoder Representations from Transformers)、または、GPT(Generative Pre-trained Transformer)系列のGPT-3,GPT-3.5,GPT-4などの大規模言語モデル(LLM)を想定する。なお、これに限らず、下流のタスクの前に事前学習を行う基盤モデルになり得る機械学習モデルであれば、どのようなモデルでもよい。入力データは、ここでは文章などのテキストデータを想定する。学習済みモデルは、入力データを処理して出力データを推論するネットワーク層を含む。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社東芝
センサ
2日前
株式会社東芝
回転電機
28日前
株式会社東芝
回転電機
28日前
株式会社東芝
回転電機
1か月前
株式会社東芝
電解装置
1か月前
株式会社東芝
回転電機
1か月前
株式会社東芝
測距装置
1か月前
株式会社東芝
回転電機
1か月前
株式会社東芝
発振回路
1か月前
株式会社東芝
受光装置
1か月前
株式会社東芝
回転電機
28日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
真空バルブ
6日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
真空バルブ
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
24日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
続きを見る
他の特許を見る