TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025100170
公報種別公開特許公報(A)
公開日2025-07-03
出願番号2023217347
出願日2023-12-22
発明の名称学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラム
出願人オムロン株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 3/092 20230101AFI20250626BHJP(計算;計数)
要約【課題】開始点から終点まで対象物を移動させるタスクを実行する際に用いられる学習済みモデルを効率的に生成する。
【解決手段】制御システムにおいて、制御装置は、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、強化学習を実行する際に用いられる第1損失関数に対して、第1データを学習用モデルへ入力した際の出力値と第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、学習済みモデルを生成するための全体損失関数を設定し、取得したペアに基づいて、全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、対象物の位置データが入力されると対象物の位置の変位を表す移動データを出力する学習済みモデルを生成する。
【選択図】図10
特許請求の範囲【請求項1】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成装置であって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得する学習用取得部と、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定する設定部と、
前記学習用取得部により取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する学習部と、
を備える学習済みモデル生成装置。
続きを表示(約 2,200 文字)【請求項2】
前記第2データは、前記第1データを変換することにより得られたデータである、
請求項1に記載の学習済みモデル生成装置。
【請求項3】
前記学習用対象物は、ロボットのアームであり、
前記第1データ及び前記第2データは、前記アームの位置の変位及び前記アームに設置された力覚センサから出力される力覚値の少なくとも一方を含むデータであり、
前記第2データは、前記第1データを変換することにより得られたデータであって、かつ前記第1データと対称性を有するデータであり、
前記学習部は、前記アームの位置データが入力されると前記アームの前記移動データが出力される前記学習済みモデルを生成する、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項4】
前記第1データが表す移動履歴と前記第2データが表す移動履歴との間の関係は、線対称又は点対称な関係である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項5】
前記第2損失関数は、前記第1データを強化学習における行動価値関数へ入力した際の前記行動価値関数の出力値と、前記第2データを前記行動価値関数へ入力した際の前記行動価値関数の出力値との間の差分を含む損失関数である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項6】
前記学習用モデル及び前記学習済みモデルは、強化学習における方策に相当し、
前記第2損失関数は、
前記第1データを方策へ入力した際の前記方策の出力値と、前記第2データを方策へ入力した際の前記方策の出力値との間の差分を含む損失関数である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項7】
強化学習における方策は、Soft Actor-Criticアルゴリズムにおけるアクターであり、
強化学習における行動価値関数は、Soft Actor-Criticアルゴリズムにおけるクリティックであり、
前記第2損失関数は、前記第1データを前記クリティックへ入力した際の前記クリティックの出力値と、前記第2データを前記クリティックへ入力した際の前記アクターの出力値との間の差分と、前記第1データを前記アクターへ入力した際の前記アクターの出力値と、前記第2データを前記アクターへ入力した際の前記アクターの出力値との間の差分とを含み、
前記学習部は、
Soft Actor-Criticアルゴリズムに従って強化学習を実行する際に、
前記全体損失関数が小さくなるように、前記クリティックに対応する前記行動価値関数を学習させると共に、前記アクターに対応する前記方策を学習させ、前記アクターに対応する前記学習済みモデルを生成する、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項8】
対象物の位置データを取得する取得部と、
請求項1又は請求項2に記載の学習済みモデル生成装置によって生成された前記学習済みモデルに対して、前記取得部により取得された前記対象物の位置データを入力することにより、前記対象物の前記移動データを取得し、前記対象物の前記移動データに基づいて前記対象物の位置を制御する制御部と、
を備えた制御装置。
【請求項9】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成方法であって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、
取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。
【請求項10】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成プログラムであって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、
取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、
処理をコンピュータに実行させるための学習済みモデル生成プログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラムに関する。
続きを表示(約 2,300 文字)【背景技術】
【0002】
従来、物体を把持する動作をロボットへ学習させる技術が知られている(例えば、非特許文献1を参照)。この技術では、物体が写る学習用の画像データを増加させ、ロボットはその学習用の画像に基づいて、自らのグリッパーを移動させて物体を把持する際の動作を学習する。
【先行技術文献】
【非特許文献】
【0003】
Xupeng Zhu, Dian Wang, Ondrej Biza, Guanang Su, Robin Walters, Robert Platt, "Sample Efficient Grasp Learning Using Equivariant Models", https://arxiv.org/abs/2202.09468.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記非特許文献1の技術は、ロボットに対して物体を把持する際の動作を学習させる場合に、物体が写る学習用の画像データを増加させる技術である。また、上記非特許文献1では、畳み込みニューラルネットワークを用いて強化学習における行動価値関数が学習される。畳み込みニューラルネットワークは、物体が写る画像の対称性を考慮することが可能なモデルである。上記非特許文献1では、行動価値関数を畳み込みニューラルネットワークによって実現することにより、例えば、画像に写る物体が回転すると、その物体の回転に応じて行動価値関数の値も変化するように構成されている。
【0005】
その一方で、例えば、ロボットが物体を移動させるようなタスクを実行する場合がある。この場合において、例えば、ロボットが強化学習を実行する際には、ロボットは物体の移動経路を学習する必要がある。例えば、ロボットが、物体の一例であるペグを穴へ挿入させるペグインホールというタスクを実行する際には、どのような移動経路でペグを穴へ移動させればよいのかということをロボットが学習する必要がある。
【0006】
上記非特許文献1では、畳み込みニューラルネットワークによって、物体自体の回転対称性を考慮した行動価値関数が実現されている。このため、上記非特許文献1の技術を利用したとしても、物体自体の回転対称性を考慮した学習済みモデルが得られるのみであり、また、その学習済みモデルは、物体を把持する際に用いられる学習済みモデルである。仮に、上記非特許文献1の技術を利用して物体を移動させるタスクを実行する際に用いられる学習済みモデルを得ようとしたとしても、多大な計算コストかかるため、学習済みモデルを効率的に生成することができない。
【0007】
なお、物体を移動させるタスクを実行する際に用いられる学習済みモデルを生成するためには、物体を実際に移動させた際の移動履歴を表す膨大な学習用データを用いる必要がある。しかし、このような膨大な学習用データを用いて学習済みモデルを生成する場合には、多大な計算コストがかかり、学習済みモデルを効率的に生成することができない、という課題がある。
【0008】
本開示は、上記の点に鑑みてなされたものであり、開始点から終点まで対象物を移動させるタスクを実行する際に用いられる学習済みモデルを効率的に生成することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本開示に係る学習済みモデル生成装置は、対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成装置であって、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得する学習用取得部と、強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定する設定部と、前記学習用取得部により取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する学習部と、を備える学習済みモデル生成装置である。
【0010】
また、本開示の学習済みモデル生成方法は、対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成方法であって、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、処理をコンピュータが実行する学習済みモデル生成方法である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

オムロン株式会社
安全装置
10日前
オムロン株式会社
インバータ装置
3日前
オムロン株式会社
電磁ロック装置
11日前
オムロン株式会社
電気機器ユニット
3日前
オムロン株式会社
端子台および端子台セット
3日前
オムロン株式会社
車椅子用治具および車椅子
10日前
オムロン株式会社
車椅子用治具および車椅子
10日前
オムロン株式会社
送電装置、受電装置およびシステム
6日前
オムロン株式会社
制御装置、制御方法及び制御プログラム
12日前
オムロン株式会社
風計測装置およびこれを備えた気象センサ
17日前
オムロン株式会社
培地監視装置、培地監視方法、及びプログラム
3日前
オムロン株式会社
導光板、表示装置、遊技機、および車載表示器
4日前
オムロン株式会社
風計測装置、風計測方法および風計測プログラム
17日前
オムロン株式会社
検査管理システム、検査管理装置、教師データ生成方法、及びプログラム
3日前
オムロン株式会社
打返し制御装置、打返し制御方法、打返し制御プログラム、及び打返し装置
13日前
オムロン株式会社
学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラム
3日前
オムロン株式会社
情報処理装置、学習済みモデル生成装置、情報処理方法、学習済みモデル生成方法、情報処理プログラム、及び学習済みモデル生成プログラム
19日前
個人
対話装置
24日前
個人
物品給付年金
1か月前
個人
情報処理装置
24日前
個人
政治のAI化
1か月前
個人
情報処理装置
20日前
個人
記入設定プラグイン
12日前
個人
プラグインホームページ
1か月前
個人
情報入力装置
24日前
個人
不動産売買システム
4日前
個人
物価スライド機能付生命保険
24日前
個人
マイホーム非電子入札システム
24日前
個人
全アルゴリズム対応型プログラム
1か月前
キヤノン株式会社
画像処理装置
1か月前
株式会社BONNOU
管理装置
17日前
株式会社東芝
電子機器
5日前
個人
決済手数料0%のクレジットカード
27日前
大同特殊鋼株式会社
輝線検出方法
1か月前
サクサ株式会社
カードの制動構造
26日前
株式会社ワコム
電子消去具
4日前
続きを見る