TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025119754
公報種別
公開特許公報(A)
公開日
2025-08-15
出願番号
2024014734
出願日
2024-02-02
発明の名称
学習プログラム、学習方法、及び情報処理装置
出願人
富士通株式会社
代理人
個人
主分類
G06N
3/092 20230101AFI20250807BHJP(計算;計数)
要約
【課題】マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【解決手段】情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させる。
【選択図】図2
特許請求の範囲
【請求項1】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、前記情報処理装置に、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
処理を実行させること、を特徴とする学習プログラム。
続きを表示(約 1,100 文字)
【請求項2】
前記第1のパラメータは、前記重み付けに基づく、前記学習済みモデルのエージェントのパラメータを用いた加重平均の値であること、
を特徴とする請求項1の学習プログラム。
【請求項3】
前記重みづけは、前記学習済みモデルのエージェントに関する情報と、前記学習モデルのエージェントに関する情報との相関関係によって行われること、
を特徴とする請求項1の学習プログラム。
【請求項4】
前記学習済みモデルのエージェントに関する情報は、前記学習済みモデルの学習中での前記学習済みモデルのエージェントの状態空間に関する情報であり、前記学習モデルのエージェントに関する情報は、前記学習プログラムを実行する環境での、所定の制御を用いた学習前での前記学習モデルのエージェントの状態空間に関する情報であること、
を特徴とする請求項3の学習プログラム。
【請求項5】
前記第2のパラメータは前記第1のパラメータに所定のベクトルを付与し、前記学習モデルのバイアス項を0にしたパラメータであること、
を特徴とする請求項1の学習プログラム。
【請求項6】
前記学習モデルは、初回の前記学習モデル更新時に、全く活性化していないニューロンを初期化すること、
を特徴とする請求項1の学習プログラム。
【請求項7】
前記学習モデルは、学習中において、前記学習モデルのパラメータに付与する前記所定のベクトルの分散を、前記学習モデルが更新する度に小さくしていくこと、
を特徴とする請求項1の学習プログラム。
【請求項8】
学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムを記憶する記憶部と、
前記学習プログラムを実行する制御部と、を有し、
前記制御部が前記学習プログラムを実行することにより、前記制御部が、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定すること、
を特徴とする情報処理装置。
【請求項9】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習方法において、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
こと、を特徴とする学習方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は学習プログラム、学習方法、及び情報処理装置に関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
深層学習において、転移学習は一般的な学習方法であり、例えば、学習時間を短縮することができ、効率的な学習を行うことができる。そのため、深層強化学習においても同様に転移学習を用いて効率的に学習を行うことが期待されている。
【先行技術文献】
【非特許文献】
【0003】
Haobin Shi, Jingchen Li, Jiahui Mao, and Kao-Shing Hwang, Lateral Transfer Learning for Multiagent Reinforcement Learning IEEE Transactions on Cybernetics, Volume53, Issue3, MARCH 2023
【発明の概要】
【発明が解決しようとする課題】
【0004】
マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【0005】
また、学習時間を短縮する方法として、非特許文献1に記載の方法がある。非特許文献1では、転移元(以降ソースと記載する場合がある。)のモデルからエージェントをクラスタリングし、転移先(以降ターゲットと記載する場合がある。)のタスクに近いクラスタをターゲットエージェントに割り当てる方法である。しかし、この方法では転移学習を繰り返すごとにモデルが複雑化し、モデルサイズが大きくなってしまう場合がある。そのため、モデルサイズの巨大化によって学習時間などに悪影響を及ぼす可能性がある。そのため、転移学習を深層強化学習に対して効率的に用いることができているとはいえない。
【0006】
開示の技術は、上記を鑑みてなされたものであって、深層強化学習において、転移学習を効率的に用いることを目的とする。
【課題を解決するための手段】
【0007】
1つの側面では、情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させること、を特徴とする学習プログラム、を提供する。
【発明の効果】
【0008】
深層強化学習において、転移学習を効率的に用いることができる。
【図面の簡単な説明】
【0009】
図1は、実施の形態における情報処理装置の一例を示す図である。
図2は、実施の形態における学習モデルの出力過程の一例を示す図である。
図3は、実施の形態における学習プログラムを実行する情報処理装置の一例を示す図である。
図4は、実施の形態を適用した具体例1における適用環境の模式図である。
図5は、実施の形態を適用した具体例1における強化学習の結果を示す図である。
図6は、実施の形態を適用した具体例2における適用環境を示した図である。
図7は、実施の形態を適用した具体例2における強化学習の結果を示す図である。
【発明を実施するための形態】
【0010】
以下、本実施の形態について図面を参照して詳細に説明する。本明細書における課題及び実施の形態は一例であり、本願の権利範囲を限定するものではない。特に、記載の表現が異なっていたとしても技術的に同等であれば、異なる表現であっても本願の技術を適用可能であり、権利範囲を限定するものではない。そして、各実施の形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
医用画像処理方法
11日前
富士通株式会社
転倒検出方法及び装置
3日前
富士通株式会社
データ転送制御装置および情報処理装置
3日前
富士通株式会社
データ転送制御装置および情報処理装置
3日前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
2日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
10日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
5日前
富士通株式会社
表示制御プログラム、表示制御方法及び情報処理装置
10日前
富士通株式会社
調達管理プログラム,調達管理方法,及び情報処理装置
5日前
個人
裁判のAI化
1か月前
個人
フラワーコートA
10日前
個人
工程設計支援装置
2日前
個人
情報処理システム
1か月前
個人
検査システム
1か月前
個人
介護情報提供システム
17日前
個人
設計支援システム
23日前
個人
携帯情報端末装置
3日前
個人
設計支援システム
23日前
個人
不動産売買システム
1か月前
株式会社サタケ
籾摺・調製設備
1か月前
キヤノン電子株式会社
携帯装置
1か月前
株式会社カクシン
支援装置
26日前
個人
備蓄品の管理方法
1か月前
個人
アンケート支援システム
12日前
サクサ株式会社
中継装置
13日前
キヤノン株式会社
情報処理装置
1か月前
個人
ジェスチャーパッドのガイド部材
16日前
キヤノン株式会社
情報処理装置
1か月前
サクサ株式会社
中継装置
1か月前
キヤノン電子株式会社
名刺管理システム
1か月前
ホシデン株式会社
タッチ入力装置
1か月前
株式会社ワコム
電子消去具
1か月前
株式会社東芝
電子機器
1か月前
アスエネ株式会社
排水量管理方法
1か月前
株式会社寺岡精工
システム
16日前
東洋電装株式会社
操作装置
1か月前
続きを見る
他の特許を見る