TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025120641
公報種別公開特許公報(A)
公開日2025-08-18
出願番号2024015584
出願日2024-02-05
発明の名称機械学習装置、機械学習方法、及び機械学習プログラム並びに経路生成装置
出願人三菱重工業株式会社
代理人個人,個人,個人
主分類G06N 20/00 20190101AFI20250808BHJP(計算;計数)
要約【課題】非線形モデルや複雑な制約を含む問題を扱うことが可能であるとともに、計算負荷の軽減を図ること。
【解決手段】機械学習装置10は、入力された行動を用いて次のタイムステップにおける状態を計算するシミュレータ20と、方策関数を用いて、シミュレータ20の出力に対して対象移動体がとるべき行動を演算する行動演算部51と、対象移動体と対象移動体の観測対象である観測移動体との位置関係に基づく報酬条件を含む、複数の報酬条件を有し、シミュレータ20から出力された状態及び行動演算部51から出力された行動を用いて、複数の報酬条件に基づく報酬を演算する報酬演算部52と、報酬演算部52によって出力された報酬、シミュレータ20から出力された状態、行動演算部51から出力された行動を蓄積し、蓄積したデータに基づいて方策関数を更新する学習部53とを備える。
【選択図】図2

特許請求の範囲【請求項1】
対象移動体が目標状態に至るまでの移動経路生成に適用される機械学習装置であって、
初期状態又は直前のタイムステップにおける状態と、入力された行動とを用いて次のタイムステップにおける状態を計算するシミュレータと、
方策関数を用いて、前記シミュレータの出力に対して前記対象移動体がとるべき行動を演算する行動演算部と、
対象移動体と前記対象移動体の観測対象である観測移動体との位置関係に基づく報酬条件を含む、複数の報酬条件を有し、前記シミュレータから出力された状態及び前記行動演算部から出力された行動を用いて、複数の前記報酬条件に基づく報酬を演算する報酬演算部と、
前記報酬演算部によって出力された報酬、前記シミュレータから出力された状態、前記行動演算部から出力された行動を蓄積し、蓄積したデータに基づいて前記方策関数を更新する学習部と
を備える機械学習装置。
続きを表示(約 1,400 文字)【請求項2】
前記報酬演算部は、前記対象移動体が目標状態を満たすことを規定した第1報酬条件を有し、対象移動体が目標状態を満たしたときに正の報酬である成功報酬を付与する請求項1に記載の機械学習装置。
【請求項3】
前記報酬演算部は、前記対象移動体の観測領域と前記観測移動体の位置とに基づく第2報酬条件を有する請求項1に記載の機械学習装置。
【請求項4】
前記報酬演算部は、前記観測移動体が前記対象移動体の観測領域外に位置する場合に、負の報酬である失敗報酬を付与する請求項3に記載の機械学習装置。
【請求項5】
前記第2報酬条件は、前記対象移動体の固定座標系における座標及び方位によって規定されており、
前記報酬演算部は、前記シミュレータが用いる絶対座標系を前記対象移動体の固定座標系に座標変換し、座標変換後の前記対象移動体及び前記観測移動体の座標及び方位に基づいて前記第2報酬条件を満たすか否かを判定する請求項4に記載の機械学習装置。
【請求項6】
前記報酬演算部は、前記観測移動体の侵入禁止領域と前記対象移動体の位置とに基づく第3報酬条件を有する請求項1に記載の機械学習装置。
【請求項7】
前記報酬演算部は、前記対象移動体が前記観測移動体の侵入禁止領域に位置する場合に、負の報酬である失敗報酬を付与する請求項6に記載の機械学習装置。
【請求項8】
前記第3報酬条件は、前記観測移動体の固定座標系における座標及び方位によって規定されており、
前記報酬演算部は、前記シミュレータが用いる絶対座標系又は前記対象移動体の固定座標系を前記観測移動体の固定座標系に座標変換し、座標変換後の前記観測移動体及び前記対象移動体の座標及び方位に基づいて前記第3報酬条件を満たすか否かを判定する請求項7に記載の機械学習装置。
【請求項9】
前記報酬演算部は、前記対象移動体の進行方向に対する観測移動体の方向に関する正の報酬である角度報酬、前記対象移動体が目標状態に接近したことに関する正の報酬である距離報酬、前記対象移動体が目標状態を満たすまでの時間に応じた負の報酬である最短時間報酬、前記対象移動体の方向転換角度指令に応じた負の報酬である方向転換角度報酬、及び前記対象移動体の速度に応じた負の報酬である速度報酬の少なくともいずれか一つを付与する請求項1に記載の機械学習装置。
【請求項10】
対象移動体が目標状態に至るまでの移動経路生成に適用される機械学習方法であって、
初期状態又は直前のタイムステップにおける状態と、入力された行動とを用いて次のタイムステップにおける状態を計算する状態遷移演算工程と、
方策関数を用いて、前記状態遷移演算工程で演算された状態に対して前記対象移動体がとるべき行動を演算する行動演算工程と、
対象移動体と前記対象移動体の観測対象である観測移動体との位置関係に基づく報酬条件を含む複数の報酬条件を有し、前記状態遷移演算工程で算出された状態に対して複数の前記報酬条件に基づく報酬を演算する報酬演算工程と、
前記状態遷移演算工程で算出された状態、該状態に対する報酬、及び該状態に対する前記対象移動体がとるべき行動を蓄積し、蓄積した情報に基づいて前記方策関数を更新する学習工程と
をコンピュータが実行する機械学習方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、機械学習装置、機械学習方法、及び機械学習プログラム並びに経路生成装置に関するものである。
続きを表示(約 2,000 文字)【背景技術】
【0002】
従来、障害及び脅威対象を避けながら目標点まで到達する経路を生成する技術が提案されている。
例えば、特許文献1には、地形追随飛行を実行する航空機を対象とし、航空機の動力特性や障害物との衝突及び脅威対象の視認性などを考慮した軌道生成の問題を混合線形計画問題として定式化し、これを解くことで、開始地点から目的地点までの軌道を生成することが開示されている。特許文献1には、単位時間におけるあらゆる脅威対象に対して見えないことを保証する制約条件を用いるとともに、時間、エネルギー等の要素を考慮して最も均衡のとれた軌道を生成することが開示されている。
【先行技術文献】
【特許文献】
【0003】
特許第4852688号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示された発明では、最適化計算を問題が与えられる毎に実施することから、計算負荷が大きくオンラインでの使用に制限があるとの問題があった。また、自機の運動方程式が線形モデルに限られる、脅威対象が視認可能なエリアを自由に設定できないなどの問題があった。また、特許文献1に開示された発明では、脅威対象の位置は固定されており、脅威対象が移動するような場合に対応できないという問題があった。
【0005】
本開示は、このような事情に鑑みてなされたものであって、非線形モデルや複雑な制約を含む問題を扱うことが可能であるとともに、計算負荷の軽減を図ることが可能な機械学習装置、機械学習方法、及び機械学習プログラム並びに経路生成装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る機械学習装置は、対象移動体が目標状態に至るまでの移動経路生成に適用される機械学習装置であって、初期状態又は直前のタイムステップにおける状態と、入力された行動とを用いて次のタイムステップにおける状態を計算するシミュレータと、方策関数を用いて、前記シミュレータの出力に対して前記対象移動体がとるべき行動を演算する行動演算部と、対象移動体と前記対象移動体の観測対象である観測移動体との位置関係に基づく報酬条件を含む、複数の報酬条件を有し、前記シミュレータから出力された状態及び前記行動演算部から出力された行動を用いて、複数の前記報酬条件に基づく報酬を演算する報酬演算部と、前記報酬演算部によって出力された報酬、前記シミュレータから出力された状態、前記行動演算部から出力された行動を蓄積し、蓄積したデータに基づいて前記方策関数を更新する学習部とを備える。
【0007】
本開示の一態様に係る機械学習方法は、対象移動体が目標状態に至るまでの移動経路生成に適用される機械学習方法であって、初期状態又は直前のタイムステップにおける状態と、入力された行動とを用いて次のタイムステップにおける状態を計算する状態遷移演算工程と、方策関数を用いて、前記状態遷移演算工程で演算された状態に対して前記対象移動体がとるべき行動を演算する行動演算工程と、対象移動体と前記対象移動体の観測対象である観測移動体との位置関係に基づく報酬条件を含む複数の報酬条件を有し、前記状態遷移演算工程で算出された状態に対して複数の前記報酬条件に基づく報酬を演算する報酬演算工程と、前記状態遷移演算工程で算出された状態、該状態に対する報酬、及び該状態に対する前記対象移動体がとるべき行動を蓄積し、蓄積した情報に基づいて前記方策関数を更新する学習工程とをコンピュータが実行する。
【0008】
本開示の一態様に係る機械学習プログラムは、コンピュータを上記機械学習装置として機能させるための機械学習プログラムである。
【0009】
本開示の一態様に係る経路生成装置は、対象移動体が目標状態に至るまでの移動経路生成を行う経路生成装置であって、初期状態又は直前のタイムステップにおける状態と、入力された行動とを用いて次のタイムステップにおける状態を計算するシミュレータと、上記機械学習装置によって強化学習された前記方策関数を有するとともに、該方策関数を用いて前記シミュレータの出力に対して前記対象移動体がとるべき行動を演算する行動演算部と、を備え、初期状態から前記対象移動体が目標状態に至るまで、前記シミュレータによる状態遷移演算処理と、前記シミュレータの出力に基づく行動演算処理とを繰り返し行うことにより、前記対象移動体の移動経路を生成する。
【0010】
本開示の一態様に係る移動体は、上記経路生成装置と、経路生成装置によって生成された移動経路に従って移動制御を行う制御部とを備える。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
裁判のAI化
1か月前
個人
工程設計支援装置
14日前
個人
フラワーコートA
22日前
個人
情報処理システム
1か月前
個人
検査システム
1か月前
個人
介護情報提供システム
29日前
個人
設計支援システム
1か月前
個人
設計支援システム
1か月前
個人
携帯情報端末装置
15日前
株式会社サタケ
籾摺・調製設備
1か月前
個人
不動産売買システム
1か月前
キヤノン電子株式会社
携帯装置
1か月前
個人
結婚相手紹介支援システム
11日前
株式会社カクシン
支援装置
1か月前
株式会社アジラ
進入判定装置
今日
個人
パスポートレス入出国システム
今日
個人
備蓄品の管理方法
1か月前
個人
アンケート支援システム
24日前
個人
ジェスチャーパッドのガイド部材
28日前
大阪瓦斯株式会社
住宅設備機器
8日前
キヤノン株式会社
情報処理装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
個人
食事受注会計処理システム
1日前
サクサ株式会社
中継装置
25日前
サクサ株式会社
中継装置
1か月前
株式会社寺岡精工
システム
28日前
東洋電装株式会社
操作装置
1か月前
東洋電装株式会社
操作装置
1か月前
株式会社アジラ
移動方向推定装置
23日前
アスエネ株式会社
排水量管理方法
1か月前
キヤノン電子株式会社
名刺管理システム
1か月前
個人
リテールレボリューションAIタグ
21日前
株式会社村田製作所
ラック
10日前
株式会社やよい
美容支援システム
4日前
株式会社ワコム
電子消去具
1か月前
ホシデン株式会社
タッチ入力装置
1か月前
続きを見る