TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025119587
公報種別
公開特許公報(A)
公開日
2025-08-14
出願番号
2025009529
出願日
2025-01-23
発明の名称
テキスト誤り訂正方法、テキスト誤り訂正装置及びコンピュータプログラム製品、トレーニング方法及びASR方法
出願人
株式会社NTTドコモ
代理人
インフォート弁理士法人
主分類
G06F
40/232 20200101AFI20250806BHJP(計算;計数)
要約
【課題】テキストに対して誤り訂正する場合の誤りを訂正すればするほど誤りが増える状況を回避し、テキストの誤り訂正の効果を向上させる。
【解決手段】テキスト誤り訂正方法は、第1のニューラルネットワークモデルが、処理対象テキストに基づいて、処理対象テキストの誤り訂正テキストと、誤り訂正テキストが処理対象テキストに対して改善されたか否かを指示する誤り訂正ラベルとを生成するステップと、誤り訂正ラベルに基づいて、誤り訂正テキスト又は処理対象テキストを訂正の結果として選択して出力するステップと、を含む。
【選択図】図2
特許請求の範囲
【請求項1】
第1のニューラルネットワークモデルが、処理対象テキストに基づいて、前記処理対象テキストの誤り訂正テキストと、前記誤り訂正テキストが前記処理対象テキストに対して改善されたか否かを指示する誤り訂正ラベルとを生成するステップと、
前記誤り訂正ラベルに基づいて、前記誤り訂正テキスト又は前記処理対象テキストを訂正の結果として選択して出力するステップと、を含むテキスト誤り訂正方法。
続きを表示(約 2,400 文字)
【請求項2】
前記第1のニューラルネットワークモデルは、
第2のニューラルネットワークモデルが、1グループの所定基準テキストに対応する1グループの所定入力テキストに基づいて、1グループの出力誤り訂正テキストを取得し、
前記1グループの出力誤り訂正テキストと、前記1グループの所定入力テキストと、前記1グループの所定基準テキストとに基づいて、前記1グループの出力誤り訂正テキストのうちの各出力誤り訂正テキストのトレーニング誤り訂正ラベルを算出して、1グループのトレーニング誤り訂正ラベルを取得し、
前記1グループの所定入力テキストを前記第1のニューラルネットワークモデルの入力とし、前記1グループの所定基準テキスト又は前記1グループの出力誤り訂正テキストと、前記1グループのトレーニング誤り訂正ラベルとを前記第1のニューラルネットワークモデルの出力とする、
ようにトレーニングされる、請求項1に記載のテキスト誤り訂正方法。
【請求項3】
前記1グループの出力誤り訂正テキストと、前記1グループの所定入力テキストと、前記1グループの所定基準テキストとに基づいて、前記1グループの出力誤り訂正テキストのうち各出力誤り訂正テキストのトレーニング誤り訂正ラベルを算出して、1グループのトレーニング誤り訂正ラベルを取得することは、
前記1グループの所定入力テキストのうちの第1の所定入力テキストと、第1の所定入力テキストに対応する第1の出力誤り訂正テキストと、第1の所定基準テキストとを取得するステップと、
前記第1の所定入力テキストと前記第1の所定基準テキストとの間の第1の文字誤り率(CER)、及び前記第1の出力誤り訂正テキストと前記第1の所定基準テキストとの間の第2のCERを算出するステップと、
前記第1のCERと前記第2のCERとを比較して、前記第1の出力誤り訂正テキストに対応する第1のトレーニング誤り訂正ラベルを取得するステップと、を含む請求項2に記載のテキスト誤り訂正方法。
【請求項4】
前記第1のCERと前記第2のCERとを比較して、前記第1の出力誤り訂正テキストに対応する前記第1のトレーニング誤り訂正ラベルを取得するステップは、
前記第1のCERが前記第2のCERより大きいことに応じて、前記第1のトレーニング誤り訂正ラベルが、前記第1の出力誤り訂正テキストは前記第1の所定入力テキストに対して改善されたことを指示するように設定されるステップと、
前記第1のCERが前記第2のCER以下になることに応じて、前記第1のトレーニング誤り訂正ラベルが、前記第1の出力誤り訂正テキストは前記第1の所定入力テキストに対して改善されていないことを指示するように設定されるステップと、を含む請求項3に記載のテキスト誤り訂正方法。
【請求項5】
前記第1のニューラルネットワークモデルと、前記第2のニューラルネットワークモデルとは、同じニューラルネットワークで実装される、請求項2から4のいずれか一項に記載のテキスト誤り訂正方法。
【請求項6】
前記第1のニューラルネットワークモデルは、自己回帰モデルを含む、請求項1から4のいずれか一項に記載のテキスト誤り訂正方法。
【請求項7】
ASRモデルが、音声を処理対象テキストに変換するステップと、
第1のニューラルネットワークモデルが、処理対象テキストに基づいて、前記処理対象テキストの誤り訂正テキストと、前記誤り訂正テキストが前記処理対象テキストに対して改善されたか否かを指示する誤り訂正ラベルとを生成するステップと、
前記誤り訂正ラベルに基づいて、前記誤り訂正テキスト又は前記処理対象テキストをASRの結果として選択して出力するステップと、を含む自動音声認識ASRに用いる方法。
【請求項8】
テキストの誤りを訂正する第1のニューラルネットワークモデルのトレーニング方法であって、
前記第1のニューラルネットワークモデルは、
第2のニューラルネットワークモデルが、1グループの所定基準テキストに対応する1グループの所定入力テキストに基づいて、1グループの出力誤り訂正テキストを取得し、
前記1グループの出力誤り訂正テキストと、前記1グループの所定入力テキストと、前記1グループの所定基準テキストとに基づいて、前記1グループの出力誤り訂正テキストのうちの各出力誤り訂正テキストのトレーニング誤り訂正ラベルを算出して、1グループのトレーニング誤り訂正ラベルを取得し、
前記1グループの所定入力テキストを前記第1のニューラルネットワークモデルの入力とし、前記1グループの所定基準テキスト又は前記1グループの出力誤り訂正テキストと、前記1グループのトレーニング誤り訂正ラベルとを前記第1のニューラルネットワークモデルの出力とする、
ようにトレーニングされる、トレーニング方法。
【請求項9】
プロセッサと、
一つ又は複数のコンピュータプログラムが記憶されたメモリと、を含み、
前記一つ又は複数のコンピュータプログラムが前記プロセッサによって実行される場合、請求項1から6のいずれか一項に記載のテキスト誤り訂正方法が前記プロセッサにより実行される、テキスト誤り訂正装置。
【請求項10】
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から6のいずれか一項に記載の方法が実行される、コンピュータプログラム製品。
発明の詳細な説明
【技術分野】
【0001】
本発明は、テキスト処理に関し、より具体的には、テキスト誤り訂正方法、テキスト誤り訂正装置、コンピュータプログラム製品、非一時的なコンピュータ読み取り可能な記録媒体、当該テキストの誤り訂正の方法を利用する自動音声認識(ASR:Automatic Speech Recognition)のための方法、及びテキスト誤り訂正に用いるニューラルネットワークモデルをトレーニングする方法に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
かつては、文法上の誤りやスペルミスなど、テキストから誤りを見つけて訂正するために、多くの時間と労力を費やす必要があった。人工知能技術の発展により、大量の言語データを学習することで、自動的にテキスト中の誤りを特定し、訂正することができるテキスト誤り訂正ツールが登場した。
【0003】
データ処理技術の進歩やモバイルインターネットの急速な普及に伴い、膨大な量のデータが生成されている。ASR技術は、人工知能と音声信号処理技術に基づく自動音声認識技術の一種であり、人間の音声をテキストに変換するために用いられる。自動音声認識技術は、携帯電話の音声からテキスト変換機能、動画サイトの字幕自動生成など、生活に密着した多くのサービスを支えている。
【発明の概要】
【0004】
本開示は、テキスト誤り訂正方法、テキスト誤り訂正装置、コンピュータプログラム製品、非一時的なコンピュータ読み取り可能な記憶媒体、及び自動音声認識のための方法に関する。誤り訂正テキストが処理対象テキストに対して改善されたか否かが指示され、誤り訂正テキスト又は処理対象テキストが、訂正の結果として選択されて出力されることができ、それにより、誤りを訂正すればするほど誤りが増える状況が回避される。また、テキスト誤り訂正に用いるニューラルネットワークモデルをトレーニングする方法が提案され、当該ニューラルネットワークモデルは、誤り訂正テキストと、誤り訂正テキストが処理対象テキストに対して改善されたか否かに対する指示と、を生成することができる。
【0005】
本開示の一態様によれば、テキスト誤り訂正方法が提供される。当該方法は、第1のニューラルネットワークモデルが、処理対象テキストに基づいて、処理対象テキストの誤り訂正テキストと、誤り訂正テキストが処理対象テキストに対して改善されたか否かを指示する誤り訂正ラベルとを生成するステップと、誤り訂正ラベルに基づいて、誤り訂正テキスト又は処理対象テキストを訂正の結果として選択して出力するステップと、を含む。
【0006】
本開示の一実施例によれば、第1のニューラルネットワークモデルは、第2のニューラルネットワークモデルが、1グループの所定基準テキストに対応する1グループの所定入力テキストに基づいて、1グループの出力誤り訂正テキストを取得し、1グループの出力誤り訂正テキストと、1グループの所定入力テキストと、1グループの所定基準テキストとに基づいて、1グループの出力誤り訂正テキストのうちの各出力誤り訂正テキストのトレーニング誤り訂正ラベルを算出して、1グループのトレーニング誤り訂正ラベルが取得し、1グループの所定入力テキストを第1のニューラルネットワークモデルの入力とし、1グループの所定基準テキスト又は1グループの出力誤り訂正テキストと、1グループのトレーニング誤り訂正ラベルとを第1のニューラルネットワークモデルの出力とする、ようにトレーニングされる。
【0007】
本開示の一実施例によれば、1グループの出力誤り訂正テキストと、1グループの所定入力テキストと、1グループの所定基準テキストとに基づいて、1グループの出力誤り訂正テキストのうち各出力誤り訂正テキストのトレーニング誤り訂正ラベルを算出して、1グループのトレーニング誤り訂正ラベルを取得することは、1グループの所定入力テキストのうちの第1の所定入力テキストと、第1の所定入力テキストに対応する第1の出力誤り訂正テキストと、第1の所定基準テキストとを取得するステップと、第1の所定入力テキストと第1の所定基準テキストとの間の第1の文字誤り率(CER)、及び第1の出力誤り訂正テキストと第1の所定基準テキストとの間の第2のCERを算出するステップと、第1のCERと第2のCERとが比較され、第1の出力誤り訂正テキストに対応する第1のトレーニング誤り訂正ラベルが得られるステップと、を含む。
【0008】
本開示の一実施例によれば、第1のCERと第2のCERとを比較して、第1の出力誤り訂正テキストに対応する第1のトレーニング誤り訂正ラベルを取得するステップは、第1のCERが第2のCERより大きいことに応じて、第1のトレーニング誤り訂正ラベルが、第1の出力誤り訂正テキストは第1の所定入力テキストに対して改善されたことを指示するように設定されるステップと、第1のCERが第2のCER以下になることに応じて、第1のトレーニング誤り訂正ラベルが、第1の出力誤り訂正テキストは第1の所定入力テキストに対して改善されていないことを指示するように設定されることと、を含む。
【0009】
本開示の一実施例によれば、第1のニューラルネットワークモデルと、第2のニューラルネットワークモデルとは、同じニューラルネットワークで実装される。
【0010】
本開示の一実施例によれば、第1のニューラルネットワークモデルは、自己回帰モデル(autoregressive model、ARモデル)を含む。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
株式会社NTTドコモ
情報処理装置及び方法
6日前
株式会社NTTドコモ
制御装置および制御方法
21日前
株式会社NTTドコモ
通信制御装置及び通信制御方法
2日前
株式会社NTTドコモ
情報処理装置及び情報処理方法
1か月前
株式会社NTTドコモ
情報処理装置および情報処理方法
1日前
株式会社NTTドコモ
情報処理装置および情報処理方法
1か月前
株式会社NTTドコモ
情報処理装置および情報処理方法
1日前
株式会社NTTドコモ
真実性評価装置及び真実性評価方法
1か月前
株式会社NTTドコモ
対話処理システムおよび対話処理方法
6日前
株式会社NTTドコモ
道路状態評価装置及び道路状態評価方法
29日前
株式会社NTTドコモ
モード変換器、モード変換構造、伝送線路
21日前
株式会社NTTドコモ
分類修正方法及びコンピュータプログラム製品
8日前
株式会社NTTドコモ
無線通信装置、逆特性計算方法、およびプログラム
20日前
株式会社NTTドコモ
送信システム、受信システム、チャネル合成システム
1か月前
株式会社NTTドコモ
端末
23日前
株式会社NTTドコモ
通信装置
23日前
株式会社NTTドコモ
データ拡張方法、データ拡張装置及びコンピュータプログラム製品
22日前
株式会社NTTドコモ
端末及び通信方法
23日前
株式会社NTTドコモ
データ処理方法、データ処理装置及びコンピュータプログラム製品
22日前
株式会社NTTドコモ
無線基地局及び端末
15日前
株式会社NTTドコモ
端末及び無線通信方法
15日前
株式会社NTTドコモ
端末、通信方法及び通信システム
23日前
株式会社NTTドコモ
端末、基地局、通信システム及び通信方法
23日前
株式会社NTTドコモ
端末、基地局、無線システム、及び通信方法
15日前
株式会社NTTドコモ
無線通信ネットワークにおけるネットワーク側機器によって実行される方法及びネットワーク側機器
1か月前
株式会社NTTドコモ
テキスト誤り訂正方法、テキスト誤り訂正装置及びコンピュータプログラム製品、トレーニング方法及びASR方法
14日前
AGC株式会社
アンテナユニット、およびアンテナユニットの製造方法
1か月前
個人
対話装置
2か月前
個人
情報処理装置
2か月前
個人
裁判のAI化
1か月前
個人
情報処理システム
1か月前
個人
工程設計支援装置
13日前
個人
フラワーコートA
21日前
個人
検査システム
1か月前
個人
情報処理装置
2か月前
個人
記入設定プラグイン
2か月前
続きを見る
他の特許を見る