TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025119640
公報種別公開特許公報(A)
公開日2025-08-15
出願番号2024014519
出願日2024-02-02
発明の名称情報処理システム、情報処理方法及びプログラム
出願人日本電気株式会社,国立大学法人北海道大学
代理人個人
主分類G06F 3/01 20060101AFI20250807BHJP(計算;計数)
要約【課題】複数のステップを要するタスクに対して効果的にエージェントの性能を改善するように学習する情報処理システム等を提供する。
【解決手段】本開示に係る情報処理システムは、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、出力された複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、フィードバックを用いてエージェントのモデルのパラメータを更新するパラメータ更新部と、を備える。
【選択図】図2
特許請求の範囲【請求項1】
ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、
出力された前記複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、
を備える、情報処理システム。
続きを表示(約 1,300 文字)【請求項2】
前記複数の行動の列は、
前記外部ツールの利用方法を表現するコマンドを出力する第1行動と、
前記第1行動が出力されたことにより前記外部ツールより得られた行動結果に基づく第2行動と、を含む、請求項1に記載の情報処理システム。
【請求項3】
出力された前記複数の行動の列に対する最終的フィードバックと、前記複数の行動の列のうちの一部の行動に対する中間フィードバックを取得し、前記最終的フィードバック及び前記中間フィードバックは数値フィードバックであるフィードバック取得部と、
前記最終的フィードバックと前記中間フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、をさらに備える、請求項1又は2に記載の情報処理システム。
【請求項4】
前記中間フィードバックは、評価対象の行動がタスク解決のためにどの程度望ましいかのスコアを出力する評価モデルを用いて生成される、請求項3に記載の情報処理システム。
【請求項5】
タスクの目的であるユーザ入力の第1文字列と、当該第1文字列に対するエージェントモデルの行動である第2文字列と、当該第1文字列及び第2文字列を基にエージェントモデルの行動の望ましさを評価し数値として出力するよう指示する指示文と、を結合した文字列を、事前学習済みの言語モデルに入力し、得られた出力文字列を数値に変換したものを第1行動に対する中間フィードバックとして用いる、請求項1又は2に記載の情報処理システム。
【請求項6】
前記中間フィードバックは、タスク完了後に得られる前記複数の行動の列全体に対する最終的フィードバックを用いて、前記複数の行動の列の中のある時点における状態価値がタスク完了にどの程度望ましいかを推定する木探索方法により生成される、請求項3に記載の情報処理システム。
【請求項7】
前記外部ツールは、エージェントモデルの外部にあり、情報処理装置に予めインストールされているソフトウェアプログラムである、請求項1に記載の情報処理システム。
【請求項8】
前記最終的フィードバック及び前記中間フィードバックは、ユーザインタフェースを介してユーザからテキスト形式で取得され、数値フィードバックに変換されたものである、請求項3に記載の情報処理システム。
【請求項9】
エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力し、
出力された前記複数の行動の列に対する最終的フィードバックを取得し、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する、コンピュータにより実行される情報処理方法。
【請求項10】
エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力する処理と、
出力された前記複数の行動の列に対する最終的フィードバックを取得する処理と、
前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する処理と、をコンピュータにより実行させる、プログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、情報処理システム、情報処理方法及びプログラムに関する。
続きを表示(約 2,100 文字)【背景技術】
【0002】
近年、言語モデルを用いたツール利用エージェントの学習と応用が広がっている。これらのエージェントは、言語モデルだけでは解決できない複雑なタスクや、外界に何らかの介入を行う必要があるタスクを解決することを目指している。従来の方法では、教師エージェント(たとえば、GPT-4)の行動履歴からの蒸留学習を用いる手法(たとえば、FireAct)や、テキスト形式でのフィードバックを用いてエージェントの挙動を変える手法(たとえば、LATS)が主に用いられている。
【先行技術文献】
【非特許文献】
【0003】
Chen, Baian, et al. "Fireact: Toward language agent fine-tuning." arXiv preprint arXiv:2310.05915 (2023).
Zhou, Andy, et al. "Language agent tree search unifies reasoning acting and planning in language models." arXiv preprint arXiv:2310.04406 (2023).
Petrov, Aleksandar, Philip HS Torr, and Adel Bibi. "When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations." arXiv preprint arXiv:2310.19698 (2023).
Qiao, Shuofei, et al. "Making Language Models Better Tool Learners with Execution Feedback." arXiv preprint arXiv:2305.13068(2023).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、教師エージェントの行動履歴から蒸留学習する方法は、高性能な教師エージェントのエラーにより、または、教師エージェントの行動履歴が学習対象のエージェントと教師エージェントの性能差(たとえば、知識量)の存在を無視した訓練データになり得ることにより、性能が低下し得る。また、非特許文献2に示すテキスト形式でのフィードバックを用いてエージェントの挙動を変える手法には、非特許文献3において示されているように、テキスト形式でのフィードバックはエージェントモデルのパラメータを更新する手法と比較して言語モデルの挙動を変更する能力に劣るという課題がある。
【0005】
また、上記した非特許文献4に示すTRICEでは、これらの課題を解決するため、教師エージェントの行動履歴から蒸留学習を行った後、学習対象のエージェント自身の行動とそれに対する外界からのフィードバックを用いて学習対象のエージェントのパラメータを更新し性能をさらに改善する方法を取っている。
【0006】
上記した技術TRICEは主に1ステップで完了するタスクを想定し、エージェントの1つの行動のみに対応するフィードバックしか受け付けない。しかし、実際には複数ステップが必要となる複雑なタスクも多く、こうした複雑なタスクを行うエージェントの複数の行動に対して適した学習が望まれている。
【0007】
本開示は、このような問題点を解決するためになされたものであり、複数のステップを要するタスクに対して効果的にエージェントの性能を改善するように学習する情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0008】
本開示に係る情報処理システムは、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力するエージェントと、出力された前記複数の行動の列に対する最終的フィードバックを取得するフィードバック取得部と、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新するパラメータ更新部と、を備える。
【0009】
本開示に係るコンピュータにより実行される情報処理方法は、エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力し、出力された前記複数の行動の列に対する最終的フィードバックを取得し、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する。
【0010】
本開示に係るプログラムは、エージェントにより、ユーザクエリに応答して外部ツールへのコマンドを出力する行動を含む複数の行動の列を出力する処理と、出力された前記複数の行動の列に対する最終的フィードバックを取得する処理と、前記最終的フィードバックを用いて前記エージェントのモデルのパラメータを更新する処理と、をコンピュータにより実行させる。
【発明の効果】
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する

関連特許

日本電気株式会社
信号処理装置及び方法
11日前
日本電気株式会社
光ファイバ伝送路及び光伝送方法
4日前
日本電気株式会社
情報処理装置、及び処理方法、プログラム
3日前
日本電気株式会社
ゲート装置、認証制御方法、及びプログラム
10日前
日本電気株式会社
受講管理装置、受講管理方法及びプログラム
3日前
日本電気株式会社
教育支援装置、教育支援方法及びプログラム
3日前
日本電気株式会社
制御計画装置、制御計画方法及びプログラム
4日前
日本電気株式会社
在庫調整装置、在庫調整方法、及びプログラム
4日前
日本電気株式会社
情報処理装置、情報処理方法、及びプログラム
6日前
日本電気株式会社
サーバ装置、サーバ装置の方法及びプログラム
今日
日本電気株式会社
起動制御装置、起動制御方法、及びプログラム
4日前
日本電気株式会社
情報処理システム、情報処理方法及びプログラム
3日前
日本電気株式会社
情報処理装置、情報処理方法、およびプログラム
11日前
日本電気株式会社
サーバ装置、サーバ装置の制御方法及びプログラム
5日前
日本電気株式会社
飲食店分析システム、飲食店分析方法及びプログラム
13日前
日本電気株式会社
挿抜構造、挿抜方法、光伝送装置、制御方法及び制御プログラム
3日前
日本電気株式会社
運航管理装置、運航管理システム、運航管理方法及びプログラム
4日前
日本電気株式会社
異常伝搬情報出力装置、異常伝搬情報出力方法および異常伝搬情報出力プログラム
4日前
日本電気株式会社
ストレージシステム、データ書き込み方法、データ読み出し方法およびプログラム
10日前
日本電気株式会社
無線端末及び無線端末のための方法
5日前
日本電気株式会社
処理装置、処理方法及びプログラム
3日前
日本電気株式会社
方法、ネットワーク装置、及び端末装置
5日前
日本電気株式会社
マルチコアファイバ伝送路、マルチコアファイバ伝送システム及びマルチコアファイバ接続方法
13日前
日本電気株式会社
情報処理システム、情報処理方法及びプログラム
13日前
日本電気株式会社
配送支援システム、配送支援方法、およびプログラム
3日前
日本電気株式会社
第1のコアネットワークノード、ユーザ装置、及び、方法
4日前
日本電気株式会社
情報処理システム、情報処理方法、及びコンピュータプログラム
3日前
日本電気株式会社
映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法
13日前
日本電気株式会社
測定報告とセル識別子に基づいた隣接セル間のハンドオーバのターゲットセルの決定
5日前
個人
裁判のAI化
1か月前
個人
情報処理システム
1か月前
個人
工程設計支援装置
3日前
個人
フラワーコートA
11日前
個人
記入設定プラグイン
1か月前
個人
検査システム
1か月前
個人
介護情報提供システム
18日前
続きを見る