TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025100418
公報種別
公開特許公報(A)
公開日
2025-07-03
出願番号
2024216078
出願日
2024-12-11
発明の名称
データセット特徴タイプ推論
出願人
富士通株式会社
代理人
弁理士法人ITOH
主分類
G06N
20/00 20190101AFI20250626BHJP(計算;計数)
要約
【課題】 本開示は、特徴タイプ推論に関する技術を提供する。
【解決手段】 一実施形態の一態様によれば、1つ以上の動作は、複数のデータサブセットを含むデータセットにアクセスすることを含み得る。データサブセットに対応する特徴タイプ候補が特定され得る。当該1つ以上の動作は更に、異なる特徴タイプ候補セットを用いて第1機械学習モデルを構築することを含み得る。各異なる特徴タイプ候補セットにそれぞれ対応する各第1機械学習モデルの、データセットに対するそれぞれの正確さに基づいて、異なる特徴タイプ候補セットの各々がスコア付けされ得る。異なる特徴タイプセットのスコアに基づいて、異なる特徴タイプ候補セットから最終的な特徴タイプセットが選択され得る。当該動作は更に、最終的な特徴タイプセットをデータセットに適用することによって生成されたラベル付きデータセットを用いて第2機械学習モデルを訓練することを含み得る。
【選択図】 図3
特許請求の範囲
【請求項1】
複数のデータサブセットを含むデータセットにアクセスし、
前記複数のデータサブセットに対応する複数の特徴タイプ候補を特定し、
複数の異なる特徴タイプ候補セットを用いて複数の第1機械学習モデルを構築し、
各異なる特徴タイプ候補セットにそれぞれ対応する前記複数の第1機械学習モデルのうちの各第1機械学習モデルの、前記データセットに対するそれぞれの正確さに基づいて、前記複数の異なる特徴タイプ候補セットの各々をスコア付けし、
前記複数の異なる特徴タイプ候補セットの前記スコアに基づいて、前記複数の異なる特徴タイプ候補セットから最終的な特徴タイプセットを選択し、
前記最終的な特徴タイプセットを前記データセットに適用することによって生成されたラベル付きデータセットを用いて第2機械学習モデルを訓練する、
ことを有する方法。
続きを表示(約 1,700 文字)
【請求項2】
前記複数の特徴タイプ候補の特徴タイプ候補は、前記データセットの推論型機械学習分析に基づいて特定される、請求項1に記載の方法。
【請求項3】
当該方法は更に、前記特徴タイプ候補を、前記特徴タイプ候補がそれらそれぞれのデータサブセットに対応する実際の特徴タイプである尤度に対応するそれぞれの確率値に基づいてフィルタリングすることを有する、請求項2に記載の方法。
【請求項4】
前記複数の異なる特徴タイプ候補セットは、異なるデータサブセットに対応する異なる組み合わせの特徴タイプ候補に基づく、請求項1に記載の方法。
【請求項5】
前記複数の異なる特徴タイプ候補セットは、各特徴タイプ候補セットについてのそれぞれの結合確率値に基づいて選択され、前記それぞれの結合確率値は、対応する特徴タイプ候補セットに含まれる個々の特徴タイプ候補のそれぞれの個々の確率値に基づいて決定され、前記それぞれの個々の確率値は、対応する特徴タイプ候補がそれらそれぞれのデータサブセットに対応する実際の特徴タイプである尤度に対応する、請求項1に記載の方法。
【請求項6】
前記複数の第1機械学習モデルを構築することは、前記データセットからサンプリングされたデータを用いて前記複数の第1機械学習モデルを訓練することを含む、請求項1に記載の方法。
【請求項7】
前記複数の第1機械学習モデルの検証データとして使用される前記データセットからサンプリングされたデータに基づいて、前記複数の第1機械学習モデルのそれぞれの正確さを決定する、ことを更に有する請求項1に記載の方法。
【請求項8】
命令を格納した1つ以上の非一時的コンピュータ読み取り可能媒体であって、前記命令は、1つ以上のプロセッサによって実行されることに応答してシステムに動作を実行させ、当該動作は、
複数のデータサブセットを含むデータセットにアクセスし、
前記複数のデータサブセットに対応する複数の特徴タイプ候補を特定し、
複数の異なる特徴タイプ候補セットを用いて複数の第1機械学習モデルを構築し、
各異なる特徴タイプ候補セットにそれぞれ対応する前記複数の第1機械学習モデルのうちの各第1機械学習モデルの、前記データセットに対するそれぞれの正確さに基づいて、前記複数の異なる特徴タイプ候補セットの各々をスコア付けし、
前記複数の異なる特徴タイプ候補セットの前記スコアに基づいて、前記複数の異なる特徴タイプ候補セットから最終的な特徴タイプセットを選択し、
前記最終的な特徴タイプセットを前記データセットに適用することによって生成されたラベル付きデータセットを用いて第2機械学習モデルを訓練する、
ことを有する、1つ以上の非一時的コンピュータ読み取り可能媒体。
【請求項9】
システムであって、
1つ以上のプロセッサと、
命令を格納するように構成された1つ以上の非一時的コンピュータ読み取り可能記憶媒体と、
を有し、前記命令は、実行されることに応答して、当該システムに動作を実行させ、当該動作は、
複数のデータサブセットを含むデータセットにアクセスし、
前記複数のデータサブセットに対応する複数の特徴タイプ候補を特定し、
複数の異なる特徴タイプ候補セットを用いて複数の第1機械学習モデルを構築し、
各異なる特徴タイプ候補セットにそれぞれ対応する前記複数の第1機械学習モデルのうちの各第1機械学習モデルの、前記データセットに対するそれぞれの正確さに基づいて、前記複数の異なる特徴タイプ候補セットの各々をスコア付けし、
前記複数の異なる特徴タイプ候補セットの前記スコアに基づいて、前記複数の異なる特徴タイプ候補セットから最終的な特徴タイプセットを選択し、
前記最終的な特徴タイプセットを前記データセットに適用することによって生成されたラベル付きデータセットを用いて第2機械学習モデルを訓練する、
ことを有する、システム。
発明の詳細な説明
【技術分野】
【0001】
本開示は、概して、データセット特徴タイプ推論に関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
機械学習(ML)モデルは、訓練データセットを用いて訓練される。訓練データセットの品質は、MLモデルによって行われる予測の正確さ及び現実性に影響を及ぼす。例えば、訓練データセットは、MLモデルの予測パターンを定め得る。様々なシナリオ及び特徴を含む十分に多様化された代表的な訓練データセットは、異なる様々な入力データに対してMLモデルが妥当な予測を行うことを可能にし得る。
【0003】
本開示で特許請求される事項は、上述などの環境でのみ問題を解決したり動作したりする実施形態に限定されるものではない。むしろ、この背景技術の説明は、本開示に記載される実施形態が実施され得る技術領域の一例を示すために提供されているに過ぎないものである。
【発明の概要】
【0004】
一実施形態の一態様によれば、1つ以上の動作は、複数のデータサブセットを含むデータセットにアクセスすることを含み得る。データサブセットに対応する特徴タイプ候補が特定され得る。当該1つ以上の動作は更に、異なる特徴タイプ候補セットを用いて第1機械学習モデルを構築することを含み得る。各異なる特徴タイプ候補セットにそれぞれ対応する各第1機械学習モデルの、データセットに対するそれぞれの正確さに基づいて、異なる特徴タイプ候補セットの各々がスコア付けされ得る。異なる特徴タイプセットのスコアに基づいて、異なる特徴タイプ候補セットから最終的な特徴タイプセットが選択され得る。当該動作は更に、最終的な特徴タイプセットをデータセットに適用することによって生成されたラベル付きデータセットを用いて第2機械学習モデルを訓練することを含み得る。
【0005】
実施形態の目的及び利点は、少なくとも請求項中に具体的に指し示される要素、機構及び組み合わせによって実現・達成されることになる。理解されるべきことには、以上の概略説明及び以下の詳細説明はどちらも説明的なものであり、特許請求される発明を限定するものではない。
【図面の簡単な説明】
【0006】
以下の図を含む添付図面を通じて実施形態例を更に具体的且つ詳細に記載及び説明する。
機械学習モデルを訓練するためのシステム例を示している。
特徴タイプ推論を実行するように構成されたプロセス例を示している。
特徴タイプ推論を実行する方法例のフローチャートである。
全て本開示の1つ以上の実施形態に従ったコンピューティングシステム例を示している。
【発明を実施するための形態】
【0007】
機械学習モデルは、予測を行うために訓練データセットを用いて訓練され得る。訓練データセットは、MLモデルを訓練するために使用される訓練インスタンス又は個々のデータポイントを含み得る。個々のデータポイントは、MLモデルが予測するように設計され得る特徴及びターゲット変数に対応し得る。特徴は、MLモデルが予測を行うために使用し得るデータの特性を定義することができる。例えば、MLモデルは、異なる特徴タイプによって定義され得るデータの異なる特性に応じて、データの異なるタイプの処理又は分析を実行し得る。特徴は、とりわけ、例えば数値、カテゴリ、テキストベースなどの様々なデータタイプを含み得る。
【0008】
一部の例において、訓練データセットは、MLモデルに適した異なるフォーマットで表され得る。例えば、訓練データセットは、複数の列及び行を持つテーブル形式で表されることができる。そのような例において、列は、異なる特徴タイプを持つ特定の特徴に対応することができ、行は、その特徴の個々のインスタンス又はデータポイントを表することができる。
【0009】
本開示の1つ以上の実施形態によれば、訓練データセットの特徴タイプを特定し得る。例えば、訓練データセットに対して特徴タイプ推論を実行することができる。例えば、訓練データセット内の異なるタイプのデータを識別し、対応する特徴タイプでラベル付けることができる。例えば、訓練データセットがテーブル形式のデータセットとして表される例において、異なる列は、異なるタイプのデータを表すことができる。そのような例において、特徴タイプ推論プロセスは、訓練データセットの各列又はサブセットについて、対応する列に含まれるデータの1つ以上の特性を少なくとも部分的に定義するそれぞれの特徴タイプを決定し、それに従ってラベル付けることができる。
【0010】
一部の実施形態において、(特定された特徴タイプによって示される)異なるタイプのデータに基づいて、訓練データセットが調整され得る。例えば、一部の実施形態において、様々な大規模言語モデルプロンプトが生成され、大規模言語モデルに提供され得る。大規模言語モデルからの応答を用いて、既存のデータを改善すること及び/又は更なるデータを追加することによって、訓練データセットを調整し得る。大規模言語モデルを使用して訓練データセットを調整することは、訓練データセットの範囲及び包括性を改善し得る。結果として、訓練データセットを用いて生成される機械学習モデルが改善され得る。例えば、機械学習モデルは、よりロバストであることができ、ターゲット特徴をより正確に予測することができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
測定装置
16日前
富士通株式会社
光伝送装置
1か月前
富士通株式会社
画像変換機器と方法
19日前
富士通株式会社
量子デバイス上の誤り訂正
1か月前
富士通株式会社
データセット特徴タイプ推論
2日前
富士通株式会社
信号相関量の確定装置と方法
2日前
富士通株式会社
光伝送装置および光伝送方法
24日前
富士通株式会社
キャッシュメモリ搭載演算装置
1か月前
富士通株式会社
光受信装置及び光伝送システム
1か月前
富士通株式会社
光伝送装置および光伝送システム
3日前
富士通株式会社
制御プログラム、および制御方法
25日前
富士通株式会社
双方向光リンクの異常モニタリング
5日前
富士通株式会社
伝送路監視装置及び伝送路監視方法
2か月前
富士通株式会社
人工知能ベースのサステナブル材料設計
1か月前
富士通株式会社
情報処理プログラムおよび情報処理方法
2日前
富士通株式会社
大規模言語モデルを使用したデータ調整
2日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
5日前
富士通株式会社
管理装置、管理方法および管理プログラム
1か月前
富士通株式会社
通信管理装置および無線リソース予測方法
26日前
富士通株式会社
圧縮プログラム、圧縮方法および圧縮装置
16日前
富士通株式会社
ホモグラフィの取得装置、方法及び電子機器
1か月前
富士通株式会社
推定プログラム、推定方法及び情報処理装置
1か月前
富士通株式会社
無線アクセスネットワークプロビジョニング
2日前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
11日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
9日前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
2日前
富士通株式会社
光伝送装置、光伝送方法、及び光伝送システム
1か月前
富士通株式会社
機械学習アプローチを用いたラマンポンプ設計
1か月前
富士通株式会社
因果関係分析方法及び因果関係分析プログラム
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
2日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
1か月前
富士通株式会社
情報処理プログラム、情報処理方法、および管理装置
2か月前
富士通株式会社
レース投票券購入方法及びレース投票券購入プログラム
25日前
富士通株式会社
強化学習プログラム、強化学習方法および情報処理装置
1か月前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
量子ビットデバイス及び量子ビットデバイスの製造方法
9日前
続きを見る
他の特許を見る