TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025111300
公報種別
公開特許公報(A)
公開日
2025-07-30
出願番号
2024005639
出願日
2024-01-17
発明の名称
音声認識方法および音声認識装置
出願人
本田技研工業株式会社
代理人
個人
,
個人
,
個人
,
個人
主分類
G10L
15/183 20130101AFI20250723BHJP(楽器;音響)
要約
【課題】本書は、編集可能な用語リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【解決手段】提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。
【選択図】図1
特許請求の範囲
【請求項1】
編集可能な用語リストを用いてカスタマイズ可能なアテンションベースコンテキストバイアス方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、編集可能な用語リストを用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法に関する。
続きを表示(約 3,500 文字)
【背景技術】
【0002】
エンドツーエンド(E2E)の自動音声認識(ASR)方法は、優れた性能を示す。しかしながら、このような方法の性能は、学習データに存在するコンテキストと本質的に関連があるため、E2E-ASR方法は、未知のユーザコンテキスト(例えば、技術用語、個人名、およびプレイリスト)に対しては要求どおりに動作しない。このため、E2E-ASR方法は、ユーザまたは開発者によって容易にコンテキスト化されなければならない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本書は、編集可能な用語リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能なアテンションベースのコンテキストバイアス方法を提案する。
【課題を解決するための手段】
【0004】
提案方法は、バイアスフレーズ指数損失と特殊トークンとを組み合わせることで、入力された発話データにおけるバイアスフレーズを検出するように、効率的に学習されることが可能である。また、推論の間におけるコンテキスト化性能をさらに改善するために、我々は、バイアスフレーズ指数確率に基づくバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案する。実験結果は、提案方法が、Librispeech-960(英語)および我々の社内の(日本語)データセットの各々について、バイアスリストにおける対象用語の単語誤り率および文字誤り率を確実に改善することを証明する。
【図面の簡単な説明】
【0005】
図1:提案方法における、音響エンコーダ、バイアスエンコーダ、およびバイアスデコーダを含む全体構造。BPBビーム探索アルゴリズムは、推論の間に使用される。
図1A:バイアスフレーズ確率を利用するバイアスフレーズブースト(BPB)ビーム探索アルゴリズム。
図1B:表1:Librispeech-100 test-cleanの予備的解析。
図2:バイアスフレーズ指数損失の効果。横軸および縦軸は、各々、Bにおけるトークン指標sおよびバイアスフレーズを示す。
図2A:表2:Librispeech-960データにおいて得られた主要なWER結果(U-WER/B-WER)。太字の値は、提案方法がベースラインよりも優れている場合を示し、下線の値は、最良の結果を示す。
図3:Librispeech-960に対するBPBビーム探索のデコーディング重みα
bonus
の効果。
図4:代表例。太字の書体、赤および青の書体は、各々、バイアスフレーズ、不正確な認識および正確な認識を示す。
図5:表3:我々の社内の日本語データセットに対する実験結果。
【発明を実施するための形態】
【0006】
1.イントロダクション
エンドツーエンド(E2E)自動音声認識(ASR)[1,2]方法は、音響モデル(AM)や言語モデル(LM)などの、従来のASRシステムにおいて使用されていた多数のコンポーネントを必要とすることなく、音響特徴列を、トークン列に直接的に変換する。これまで、コネクショニスト時系列分類法(CTC)[3]、リカレントニューラルネットワークトランスデューサ(RNN-T)[4]、アテンション機構[5,6]、およびそれらの様々なハイブリッドシステム[7-9]を含む、様々なE2E-ASR方法が提案されている。E2E-ASR方法の有効性は、本質的に、学習データのコンテキストに関連するため、性能予測は、所定のユーザコンテキストに対して常には満足されない場合がある。例えば、異なるコンテキストにおいて個人名および技術用語は重要なキーワードとなる傾向があるが、このような用語は利用可能な学習データには頻繁には登場せず、結果として認識精度が悪くなってしまう。学習の間に、全てのコンテキストに対してモデルを学習させることは現実的ではないため、ユーザまたは開発者は、学習なしでモデルを容易にコンテキスト化することを可能にすべきである。
【0007】
この課題に対する典型的なアプローチは、外部のLM[10-14]を用いたShallow fusionである。例えば、[10-12]は、重み付き有限状態トランスデューサ(WFST)を使用し、in-class LMを構築し、対象の固有エンティティに対するコンテキスト化を促進している。ニューラルLMフュージョン方法も提案されている[13,14]。LMフュージョン技術は、E2E-ASRモデルと外部のニューラルLMとを組み合わせ、次に、E2E-ASRモデルによって生成された仮定を再度スコアリングすることにより、精度向上を試みている。しかしながら、WFSTまたはニューラルLMのいずれを用いるにせよ、外部のLMを学習することは、追加の学習ステップを必要とすることとなる。
【0008】
このため、再学習を必要としないいくつかの方法が提案されている。これらの方法は、辞書にない固有エンティティを認識するナレッジグラフモデリング[15]、編集可能な用語リストを用いるコンテキストスペリング訂正[15]、および音素類似性に基づく特定の固有エンティティを認識する固有エンティティを考慮したASRモデル[16]を含む。しかしながら、これらの方法は、学習のための音声合成(TTS)モデルを必要とすることや、所定の対象の固有エンティティ以外の言葉を扱うことができないこと等の制限がある。
【0009】
ディープバイアス方法[17-20]は、再学習プロセスやTTSモデルを必要としない有効なコンテキスト化を実現するための代替のアプローチを提供する。このような方法では、E2E-ASRモデルが、本書においてバイアスリストと呼ばれる編集可能な用語リストを用いてコンテキスト化されることが可能である。多くのディープバイアス方法は、バイアスリストと入力列との間にクロスアテンション層を実装し、バイアスフレーズを正しく認識する。しかしながら、バイアスリストに対してクロスアテンション層を単に追加することは、有効ではないことが分かっている[21]。このため、[21,22]は、補助損失によるクロスアテンション層のパラメータの更新に間接的に役立つ、バイアスフレーズを検出するために設計された追加のブランチを導入した。これに対して、[23,24]は、バイアスフレーズ指数を検出するクロスアテンション層に直接的に補助損失関数(バイアスフレーズ指数損失と呼ばれ、3.2節で説明される)を導入した。このアプローチはクロスアテンション層の直接のパラメータ更新を可能にするが、出力されるトークンがバイアスリストから生じたものであるのか否かを区別することができない。また、[23]は、時間のかかる、予め学習されたASRモデルを用いる二段階の学習を必要とする。
【0010】
本書は、より効果的なバイアスフレーズ検出を実現するために、バイアスフレーズ指標損失と呼ばれるクロスアテンション層に直接的な補助損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアス方法を提案する。従来の間接的な方法[21,22]とは異なり、我々の方法は、バイアスフレーズ指標損失によるクロスアテンション層の効果的な学習を容易にする。さらに、我々の技術は、バイアスフレーズに対して特殊トークンを導入することにより、現在の方法[23]とは異なっている。これは、モデルがバイアスフレーズにより効率的に着目することを可能にし、2段階の学習プロセスを不要とする。さらに、我々は、推論の間のバイアスフレーズ指標確率を統合するバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案し、バイアスフレーズ認識の性能を増大させる。この研究の主要な貢献は以下の通りである:
・我々は、バイアスフレーズ指標損失と、バイアスフレーズに対する特殊トークンとの両方を用いるディープバイアスモデルを提案する。
・我々は、対象用語に対する性能をさらに改善するバイアスフレーズブースト(BPB)ビーム探索アルゴリズムを提案する。
・我々は、提案方法が、Librispeech-960と我々の社内の日本語データセットとの両方に有効であることを証明する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
本田技研工業株式会社
車両構造
27日前
本田技研工業株式会社
制御装置
25日前
本田技研工業株式会社
回転電機
4日前
本田技研工業株式会社
回転電機
1か月前
本田技研工業株式会社
回転電機
4日前
本田技研工業株式会社
制御装置
25日前
本田技研工業株式会社
鞍乗型車両
18日前
本田技研工業株式会社
固体二次電池
10日前
本田技研工業株式会社
着座部材構造
25日前
本田技研工業株式会社
蓄電システム
12日前
本田技研工業株式会社
電動駆動装置
4日前
本田技研工業株式会社
電動駆動装置
4日前
本田技研工業株式会社
電動駆動装置
4日前
本田技研工業株式会社
電気駆動装置
4日前
本田技研工業株式会社
運転評価装置
3日前
本田技研工業株式会社
鞍乗り型車両
25日前
本田技研工業株式会社
鞍乗り型車両
1か月前
本田技研工業株式会社
温調システム
1か月前
本田技研工業株式会社
画像処理装置
2日前
本田技研工業株式会社
保険料算出装置
3日前
本田技研工業株式会社
着用物着脱装置
1か月前
本田技研工業株式会社
非水電解質電池
24日前
本田技研工業株式会社
燃料電池スタック
4日前
本田技研工業株式会社
通話サポート装置
24日前
本田技研工業株式会社
鞍乗り型電動車両
24日前
本田技研工業株式会社
カメラの取付構造
24日前
本田技研工業株式会社
燃料電池スタック
4日前
本田技研工業株式会社
ステアリング装置
4日前
本田技研工業株式会社
鞍乗り型電動車両
1か月前
本田技研工業株式会社
車両用映像表示装置
1か月前
本田技研工業株式会社
車両用映像表示装置
1か月前
本田技研工業株式会社
二酸化炭素回収装置
2日前
本田技研工業株式会社
車両用映像表示装置
1か月前
本田技研工業株式会社
車両用映像表示装置
1か月前
本田技研工業株式会社
燃料電池用貼合方法
11日前
本田技研工業株式会社
車両用映像表示装置
1か月前
続きを見る
他の特許を見る