TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025118956
公報種別
公開特許公報(A)
公開日
2025-08-13
出願番号
2025083950,2022576162
出願日
2025-05-20,2021-06-11
発明の名称
堅牢な固有表現認識のためのチャットボットにおけるエンティティレベルデータ拡張
出願人
オラクル・インターナショナル・コーポレイション
代理人
弁理士法人深見特許事務所
主分類
G06F
40/44 20200101AFI20250805BHJP(計算;計数)
要約
【課題】自然言語処理においてチャットボットシステムを訓練するためのデータを拡張する方法、システム及び非一時的なコンピュータ読取可能メモリを提供する。
【解決手段】方法は、エンティティをカバーするための値のリストを生成し、データセットから、エンティティのコンテキストを有する発話を選択し、発話を複数のテンプレートに変換する。複数のテンプレートの各テンプレートは、エンティティの値のリストにマッピングするスロットを含む。方法はさらに、複数のテンプレートからテンプレートを選択し、選択したテンプレート内のスロットとエンティティの値のリストとの間のマッピングに基づいて、値のリストから値を選択し、選択したテンプレートと選択した値とに基づいて、人工発話を生成する。人工発話を生成することは、エンティティの値のリストにマッピングする、選択したテンプレートのスロットに、選択した値を挿入することを含む。
【選択図】図5C
特許請求の範囲
【請求項1】
方法であって、
データ処理システムが、エンティティをカバーするための値のリストを生成することと、
前記データ処理システムが、データセットから、前記エンティティのコンテキストを有する発話を選択することと、
前記データ処理システムが、前記発話を複数のテンプレートに変換することとを備え、前記複数のテンプレートの各々は、前記値のリストにマッピングする前記エンティティのスロットを含み、前記方法はさらに、
前記データ処理システムが、前記複数のテンプレートからテンプレートを選択することと、
前記データ処理システムが、選択された前記テンプレート内の前記スロットと前記エンティティの前記値のリストとの間のマッピングに基づいて、前記値のリストから値を選択することと、
前記データ処理システムが、選択された前記テンプレートと選択された前記値とを用いて、人工発話を生成することとを備え、前記人工発話を生成することは、選択された前記値を、選択された前記テンプレートの前記スロットに挿入することを含む、方法。
続きを表示(約 2,900 文字)
【請求項2】
前記データセットから発話を選択する前に、前記データ処理システムが、訓練データセットを用いてモデルを訓練することをさらに備え、前記訓練データセットは、前記データセットまたはそのサブセットであり、前記方法はさらに、
前記データ処理システムが、テストデータセットまたは検証データセットを用いて、前記モデルをテストすることと、
前記データ処理システムが、前記モデルをテストすることに基づいて、前記モデルの性能を評価することと、
前記データ処理システムが、前記評価することに基づいて、前記エンティティを特定することとを備える、請求項1に記載の方法。
【請求項3】
前記データ処理システムが、前記データセットまたは前記訓練データセットを前記人工発話で拡張して、拡張訓練データセットを生成することと、
前記データ処理システムが、前記拡張訓練データセットを用いて、前記モデルを訓練することと、
前記データ処理システムが、前記テストデータセットもしくは前記検証データセット、または他のテストデータセットもしくは他の検証データセットを用いて、前記モデルを再テストすることと、
前記データ処理システムが、前記モデルを再テストすることに基づいて、前記モデルの性能を評価することと、
前記データ処理システムが、前記モデルの前記性能が既定の規準を満たすと判断することと、
前記モデルが前記既定の規準を満たすことに応答して、前記モデルを、チャットボットシステムの一部としてデプロイすることとをさらに備える、請求項2に記載の方法。
【請求項4】
前記データ処理システムが、選択された前記テンプレート内の前記スロットが、前記値のリストにマッピングする第1の要素と、関数にマッピングする第2の要素とを含むと判断することと、
前記データ処理システムが、前記関数を処理して、選択された前記テンプレート内の前記スロットと前記関数との間のマッピングに基づいて、関数値を生成することと、
前記データ処理システムが、選択された前記値と前記関数値とを組み合わせて、スロット値を取得することとをさらに備え、
前記人工発話を生成することは、前記スロット値を、選択された前記テンプレートの前記スロットに挿入することを含む、請求項1に記載の方法。
【請求項5】
前記データ処理システムが、選択された前記テンプレートが、前記スロットと他のスロットとを含むスロットマッピングの入れ子セットにマッピングすると判断することと、
前記データ処理システムが、前記スロットマッピングの入れ子セットの前記他のスロットが、他の値のリストにマッピングすると判断することと、
前記データ処理システムが、選択された前記テンプレート内の前記他のスロットと前記他の値のリストとの間のマッピングに基づいて、前記他の値のリストから他の値を選択することとをさらに備え、
前記人工発話を生成することは、選択された前記値を、選択された前記テンプレートの前記スロットに挿入することと、選択された前記他の値を、選択された前記テンプレートの前記他のスロットに挿入することとを含む、請求項1に記載の方法。
【請求項6】
前記データ処理システムが、前記データセットまたは訓練データセットを前記人工発話で拡張して、前記エンティティを含む複数のエンティティを認識および分類するようにモデルを訓練するための拡張訓練データセットを生成することをさらに備える、請求項1に記載の方法。
【請求項7】
前記テンプレートは、(i)複数のエンティティクラスを有するテンプレートか単一のエンティティクラスを有するテンプレートかの選択、(ii)テンプレートの多様性かテンプレートの品質かのトレードオフ、(iii)コンテキストに応じたテンプレートの分類、(iv)ユーザがモデルに教示したいテンプレート/固有コンテキストごとの最小発生回数を前記モデルが必要とするか、または(v)これらの任意の組み合わせ、という条件を含むヒューリスティックに基づいて選択される、請求項1に記載の方法。
【請求項8】
システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合されたメモリとを備え、前記メモリは、前記1つまたは複数のプロセッサによって実行可能な複数の命令を格納し、前記複数の命令は、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに処理を実行させ、前記処理は、
エンティティをカバーするための値のリストを生成することと、
データセットから、前記エンティティのコンテキストを有する発話を選択することと、
前記発話を複数のテンプレートに変換することとを含み、前記複数のテンプレートの各々は、前記値のリストにマッピングする前記エンティティのスロットを含み、前記処理はさらに、
前記複数のテンプレートからテンプレートを選択することと、
選択された前記テンプレート内の前記スロットと前記エンティティの前記値のリストとの間のマッピングに基づいて、前記値のリストから値を選択することと、
選択された前記テンプレートと選択された前記値とを用いて、人工発話を生成することとを含み、前記人工発話を生成することは、選択された前記値を、選択された前記テンプレートの前記スロットに挿入することを含む、システム。
【請求項9】
前記処理はさらに、
前記データセットから発話を選択する前に、訓練データセットを用いてモデルを訓練することを含み、前記訓練データセットは、前記データセットまたはそのサブセットであり、前記処理はさらに、
テストデータセットまたは検証データセットを用いて、前記モデルをテストすることと
、
前記モデルをテストすることに基づいて、前記モデルの性能を評価することと、
前記評価することに基づいて、前記エンティティを特定することとを含む、請求項8に記載のシステム。
【請求項10】
前記処理はさらに、
前記データセットまたは前記訓練データセットを前記人工発話で拡張して、拡張訓練データセットを生成することと、
前記拡張訓練データセットを用いて、前記モデルを訓練することと、
前記テストデータセットもしくは前記検証データセット、または他のテストデータセットもしくは他の検証データセットを用いて、前記モデルを再テストすることと、
前記モデルを再テストすることに基づいて、前記モデルの性能を評価することと、
前記モデルの前記性能が既定の規準を満たすと判断することと、
前記モデルが前記既定の規準を満たすことに応答して、前記モデルを、チャットボットシステムの一部としてデプロイすることとを含む、請求項9に記載のシステム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
優先権主張
本出願は、2020年6月12日に出願された米国仮出願第63/038,337号の非仮出願であり、その利益を主張し、その開示全体を本明細書に引用により援用する。
続きを表示(約 3,400 文字)
【0002】
発明の分野
本開示は、一般にチャットボットシステムに関し、より詳細には、自然言語処理においてチャットボットシステムを訓練するためのデータ拡張技術に関連する。
【背景技術】
【0003】
背景
世界中の多くのユーザは、即座に反応を得るために、インスタントメッセージングまたはチャットプラットフォームを利用している。組織は、顧客(またはエンドユーザ)と生でコミュニケーションをとるために、これらのインスタントメッセージングまたはチャットプラットフォームを使用することが多い。しかしながら、組織が顧客またはエンドユーザと生でコミュニケーションをとるためにサービススタッフを雇用するのは、非常に費用がかかる場合がある。特にインターネット上でエンドユーザとの会話をシミュレーションするために、チャットボットまたはボットが開発され始めている。エンドユーザは、すでにインストールして使用しているメッセージング・アプリを通じて、ボットと会話することができる。一般に人工知能(artificial intelligence:AI)を搭載したインテリジ
ェントボットは、生の会話においてより知的で文脈的なコミュニケーションが可能であるため、ボットとエンドユーザとの間でより自然な会話が可能になって、会話体験が向上する可能性がある。エンドユーザが、ボットが応答する方法を知っている固定されたキーワードまたはコマンドのセットを学習する代わりに、インテリジェントボットは、自然言語でのユーザの発話に基づいてエンドユーザの意図を理解し、それに応じて応答することが可能である。
【0004】
しかしながら、これらの自動化されたソリューションは、特定分野における特定の知識と、専門の開発者の能力の範囲内にのみ存在し得る特定の技術の適用とを必要とするため、チャットボットの構築は困難である。そのようなチャットボットを構築する一環として、開発者は、まず、企業およびエンドユーザのニーズを理解することができる。開発者は次に、たとえば、解析に使用するデータセットの選択、解析用の入力データセットの準備(たとえば、データのクレンジング、解析前のデータの抽出、形式化、および/または変換、データ特徴エンジニアリングの実行等)、解析を行うための適切な機械学習(machine learning:ML)技術(複数可)またはモデル(複数可)の特定、ならびにフィードバックに基づいて結果/成果を改善するための技術またはモデルの改善に関連する解析と意思決定とを行うことができる。適切なモデルを特定するタスクは、場合によっては並行して複数のモデルを開発し、これらのモデルを使用してテストと実験とを繰り返した後に、使用する1つ(または複数の)特定のモデルを特定することを含み得る。さらに、教師あり学習ベースのソリューションは、典型的には、訓練段階、それに続く適用(すなわち推論)段階、および訓練段階と適用段階との間の反復ループを含む。開発者は、これらの段階を注意深く実現し、監視することで、最適なソリューションを実現する責任を負う可能性がある。たとえば、ML技術(複数可)またはモデル(複数可)を訓練するために、ML技術(複数可)またはモデル(複数可)が望ましい成果(たとえば、発話からの意図の推論)を予測するために使用するであろう特定のパターンまたは特徴(たとえば、チャットボットの場合、生の言語処理だけでなく、インテント抽出および慎重な構文解析)をア
ルゴリズムが理解し学習できるように、正確な訓練データが必要である。確実に、ML技術(複数可)またはモデル(複数可)がこれらのパターンおよび特徴を適切に学習するために、開発者は、ML技術(複数可)またはモデル(複数可)用の訓練データセットの選択、強化および最適化を担う場合がある。
【発明の概要】
【課題を解決するための手段】
【0005】
簡潔な要約
本開示は、自然言語処理においてチャットボットシステムを訓練するためのデータ拡張技術に関する。
【0006】
さまざまな実施形態において方法が提供され、方法は、データ処理システムが、エンティティをカバーするための値のリストを生成することと、データ処理システムが、データセットから、エンティティのコンテキストを有する発話を選択することと、データ処理システムが、発話を複数のテンプレートに変換することとを備え、複数のテンプレートの各々は、値のリストにマッピングするエンティティのスロットを含み、方法はさらに、データ処理システムが、複数のテンプレートからテンプレートを選択することと、データ処理システムが、選択されたテンプレート内のスロットとエンティティの値のリストとの間のマッピングに基づいて、値のリストから値を選択することと、データ処理システムが、選択されたテンプレートと選択された値とを用いて、人工発話を生成することとを備え、人工発話を生成することは、選択された値を、選択されたテンプレートのスロットに挿入することを含む。
【0007】
いくつかの実施形態において、方法はさらに、データセットから発話を選択する前に、データ処理システムが、訓練データセットを用いてモデルを訓練することをさらに備え、訓練データセットは、データセットまたはそのサブセットであり、方法はさらに、データ処理システムが、テストデータセットまたは検証データセットを用いて、モデルをテストすることと、データ処理システムが、モデルをテストすることに基づいて、モデルの性能を評価することと、データ処理システムが、評価することに基づいて、エンティティを特定することとを備える。
【0008】
いくつかの実施形態において、方法はさらに、データ処理システムが、データセットまたは訓練データセットを人工発話で拡張して、拡張訓練データセットを生成することと、データ処理システムが、拡張訓練データセットを用いて、モデルを訓練することと、データ処理システムが、テストデータセットもしくは検証データセット、または他のテストデータセットもしくは他の検証データセットを用いて、モデルを再テストすることと、データ処理システムが、モデルを再テストすることに基づいて、モデルの性能を評価することと、データ処理システムが、モデルの性能が既定の規準を満たすと判断することと、モデルが既定の規準を満たすことに応答して、モデルを、チャットボットシステムの一部としてデプロイすることとを備える。
【0009】
いくつかの実施形態において、方法はさらに、データ処理システムが、選択されたテンプレート内のスロットが、値のリストにマッピングする第1の要素と、関数にマッピングする第2の要素とを含むと判断することと、データ処理システムが、関数を処理して、選択されたテンプレート内のスロットと関数との間のマッピングに基づいて、関数値を生成することと、データ処理システムが、選択された値と関数値とを組み合わせて、スロット値を取得することとを備え、人工発話を生成することは、スロット値を、選択されたテンプレートのスロットに挿入することを含む。
【0010】
いくつかの実施形態において、方法はさらに、データ処理システムが、選択されたテン
プレートが、スロットと他のスロットとを含むスロットマッピングの入れ子セットにマッピングすると判断することと、データ処理システムが、スロットマッピングの入れ子セットの他のスロットが、他の値のリストにマッピングすると判断することと、データ処理システムが、選択されたテンプレート内の他のスロットと他の値のリストとの間のマッピングに基づいて、他の値のリストから他の値を選択することとを備え、人工発話を生成することは、選択された値を、選択されたテンプレートのスロットに挿入することと、選択された他の値を、選択されたテンプレートの他のスロットに挿入することとを含む。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
裁判のAI化
1か月前
個人
情報処理システム
1か月前
個人
フラワーコートA
21日前
個人
工程設計支援装置
13日前
個人
記入設定プラグイン
2か月前
個人
検査システム
1か月前
個人
介護情報提供システム
28日前
個人
設計支援システム
1か月前
個人
設計支援システム
1か月前
個人
携帯情報端末装置
14日前
個人
結婚相手紹介支援システム
10日前
個人
不動産売買システム
1か月前
キヤノン電子株式会社
携帯装置
1か月前
株式会社サタケ
籾摺・調製設備
1か月前
株式会社カクシン
支援装置
1か月前
個人
アンケート支援システム
23日前
個人
備蓄品の管理方法
1か月前
サクサ株式会社
中継装置
24日前
個人
ジェスチャーパッドのガイド部材
27日前
個人
食事受注会計処理システム
今日
キヤノン株式会社
情報処理装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
大阪瓦斯株式会社
住宅設備機器
7日前
サクサ株式会社
中継装置
1か月前
株式会社寺岡精工
システム
27日前
株式会社やよい
美容支援システム
3日前
アスエネ株式会社
排水量管理方法
1か月前
株式会社ワコム
電子消去具
1か月前
東洋電装株式会社
操作装置
1か月前
東洋電装株式会社
操作装置
1か月前
個人
リテールレボリューションAIタグ
20日前
株式会社アジラ
移動方向推定装置
22日前
株式会社村田製作所
ラック
9日前
ホシデン株式会社
タッチ入力装置
1か月前
キヤノン電子株式会社
名刺管理システム
1か月前
株式会社東芝
電子機器
1か月前
続きを見る
他の特許を見る