TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025073889
公報種別公開特許公報(A)
公開日2025-05-13
出願番号2023185037
出願日2023-10-27
発明の名称置換装置、置換方法および置換プログラム
出願人日本電信電話株式会社,NTTテクノクロス株式会社
代理人弁理士法人酒井国際特許事務所
主分類G10L 15/22 20060101AFI20250502BHJP(楽器;音響)
要約【課題】モデルに手を入れずに音声認識結果に関するテキストを置換する。
【解決手段】置換装置10は、音声認識結果である第1のテキストに関する第1の文字列と、予め登録された第2のテキストに関する第2の文字列とを取得する文字列取得部111と、第1の文字列の少なくとも一部の部分文字列と第2の文字列との類似性に基づいて、第1のテキストから置換対象範囲を選定する選定部112と、置換対象範囲を第2のテキストに置換する置換部113と、を有する。
【選択図】図2
特許請求の範囲【請求項1】
音声認識結果である第1のテキストに関する第1の文字列と、予め登録された第2のテキストに関する第2の文字列とを取得する取得部と、
前記第1の文字列の少なくとも一部の部分文字列と前記第2の文字列との類似性に基づいて、前記第1のテキストから置換対象範囲を選定する選定部と、
前記置換対象範囲を前記第2のテキストに置換する置換部と、
を有することを特徴とする置換装置。
続きを表示(約 950 文字)【請求項2】
前記第1の文字列は、前記第1のテキストを発話する際の音をあらわす文字列であり、
前記第2の文字列は、前記第2のテキストを発話する際の音をあらわす文字列であることを特徴とする請求項1に記載の置換装置。
【請求項3】
前記選定部は、前記類似性とともに、前記部分文字列の長さと前記第2の文字列の長さとにも基づいて、前記置換対象範囲を選定することを特徴とする請求項1に記載の置換装置。
【請求項4】
前記選定部は、前記類似性として、前記部分文字列と前記第2の文字列との編集距離を算出し、当該編集距離に基づいて、前記置換対象範囲を選定することを特徴とする請求項1に記載の置換装置。
【請求項5】
前記選定部は、前記部分文字列の長さと前記第2の文字列の長さとの比率または大小関係に基づいて、前記置換対象範囲を選定することを特徴とする請求項3に記載の置換装置。
【請求項6】
前記選定部は、前記第2の文字列が複数存在する場合、当該第2の文字列の長さが長いものに対応する前記置換対象範囲から順に当該置換対象範囲を選定し、
前記置換部は、前記第2のテキストに置換された前記置換対象範囲に対応する第1の文字列を、置換対象外であることを示す文字列にさらに置換することを特徴とする請求項1に記載の置換装置。
【請求項7】
置換装置によって実行される置換方法であって、
音声認識結果である第1のテキストに関する第1の文字列と、予め登録された第2のテキストに関する第2の文字列とを取得する取得工程と、
前記第1の文字列の少なくとも一部の部分文字列と前記第2の文字列との類似性に基づいて、前記第1のテキストから置換対象範囲を選定する選定工程と、
前記置換対象範囲を前記第2のテキストに置換する置換工程と、
を含むことを特徴とする置換方法。
【請求項8】
請求項1~6のいずれか1項に記載の置換装置としてコンピュータを機能させるための置換プログラムであって、前記取得部、前記選定部および前記置換部として前記コンピュータを機能させることを特徴とする置換プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、置換装置、置換方法および置換プログラムに関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
音声認識結果をテキストとして出力する技術には、例えば、音響モデルおよび言語モデルにより音声認識結果をテキストとして出力する音響モデル+言語モデル方式等がある。また、音声認識結果に関するテキストを置換するためのテキストを言語モデル等のモデルに追加する技術には、例えば、追加したい単語の出現確率を推定し、音声認識処理によって動作させる言語モデルに反映する技術がある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特開2012-242421号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、モデルに手を入れずに音声認識結果に関するテキストを置換できない場合がある。例えば、音響モデル+言語モデル方式では、音声認識結果に関するテキストを置換するためには、音声認識結果に関するテキストを置換するためのテキストを言語モデルに追加しなければならず、この追加の際に、言語モデルへの反映作業のコストがかかる場合がある。このため、音響モデル+言語モデル方式では、モデルに手を入れずに音声認識結果に関するテキストを置換することができない場合がある。
【課題を解決するための手段】
【0005】
前記した課題を解決するため、本発明は、音声認識結果である第1のテキストに関する第1の文字列と、予め登録された第2のテキストに関する第2の文字列とを取得する取得部と、前記第1の文字列の少なくとも一部の部分文字列と前記第2の文字列との類似性に基づいて、前記第1のテキストから置換対象範囲を選定する選定部と、前記置換対象範囲を前記第2のテキストに置換する置換部と、を有する。
【発明の効果】
【0006】
本発明によれば、モデルに手を入れずに音声認識結果に関するテキストを置換できる。
【図面の簡単な説明】
【0007】
図1は、第1の実施形態に係る置換システムの概要の一例について説明するための図である。
図2は、第1の実施形態に係る置換装置の構成の一例を示す図である。
図3は、第1の実施形態に係る置換システムによって実行される処理の流れの一例を示すフローチャートである。
図4は、第2の実施形態に係る置換装置の構成の一例を示す図である。
図5は、選定の一例について説明するための図である。
図6は、選定の一例について説明するための図である。
図7は、選定の一例について説明するための図である。
図8は、選定の一例について説明するための図である。
図9は、第3の実施形態に係る置換装置の構成の一例を示す図である。
図10は、置換の一例について説明するための図である。
図11は、第4の実施形態に係る置換システムの概要の一例について説明するための図である。
図12は、第4の実施形態に係る置換装置の構成の一例を示す図である。
図13は、第4の実施形態に係る置換システムによって実行される処理の流れの一例を示すフローチャートである。
図14は、第5の実施形態に係る置換システムの概要の一例について説明するための図である。
図15は、第5の実施形態に係る置換装置の構成の一例を示す図である。
図16は、変換の一例について説明するための図である。
図17は、第5の実施形態に係る置換システムによって実行される処理の流れの一例を示すフローチャートである。
図18は、第6の実施形態に係る置換装置の構成の一例を示す図である。
図19は、第6の実施形態に係る置換システムによって実行される処理の流れの一例を示すフローチャートである。
図20は、第7の実施形態に係る置換システムの概要の一例について説明するための図である。
図21は、第7の実施形態に係る置換装置の構成の一例を示す図である。
図22は、第7の実施形態に係る置換システムによって実行される処理の流れの一例を示すフローチャートである。
図23は、置換プログラムを実行するコンピュータの構成の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を用いて本発明の各実施形態について説明するが、本発明は、以下の各実施形態に限定されない。以下の各実施形態を組み合わせたり変更や改良を加えたりすることが当業者に明らかである場合、そのようなことが行われた形態も本発明の技術的範囲に含まれうる。また、図面の記載は、同一部分には同一の符号を付しており、重複する説明は省略され、同様の機能を有する部材および同様の処理の説明も省略される。
【0009】
[0.参考技術]
本実施形態について説明する前に、音声認識技術に関する参考技術の一例について説明する。音声認識結果をテキストとして出力する技術には、例えば、上述した音響モデル+言語モデル方式と、End-to-Endにより音声認識結果をテキストとして出力するEnd-to-End方式とがある。
【0010】
しかしながら、参考技術では、モデルに手を入れずに音声認識結果に関するテキストを置換できない場合がある。例えば、End-to-End方式では、入力音声と出力テキストの対から一つのニューラルネットワークのモデルを学習しているため、サービス名や商品名等の単語が登録されたデータベースである単語辞書等を音声認識処理において利用できない。また、End-to-End方式では、モデルに単語を追加する場合には、例えば、音声の書き起こしによる追加学習を実施しなければならないため、コストが大きく、モデルに単語を追加するといったチューニングを簡単に行うことができない。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
リアルタイム翻訳システム
26日前
個人
10デジタルサラウンドラジオ
11日前
三井化学株式会社
防音構造
1か月前
三井化学株式会社
遮音構造体
20日前
三井化学株式会社
防音構造体
1か月前
矢崎総業株式会社
車両用対話システム
5日前
矢崎総業株式会社
車両用対話システム
5日前
矢崎総業株式会社
車両用対話システム
5日前
矢崎総業株式会社
車両用対話システム
5日前
矢崎総業株式会社
車両用対話システム
5日前
矢崎総業株式会社
車両用対話システム
5日前
トヨタ自動車株式会社
音声制御装置
19日前
株式会社第一興商
カラオケ装置
1日前
トヨタ自動車株式会社
情報処理装置
26日前
ヤマハ株式会社
鍵盤楽器
19日前
ヤマハ株式会社
鍵盤装置
今日
株式会社しくみ
音声翻訳プログラム
21日前
日本放送協会
音声認識装置およびプログラム
5日前
株式会社Gottsu
サキソフォーン向けねじ込み式スクリュー
13日前
学校法人 工学院大学
音響拡散パネル
今日
株式会社SCALER
カラオケ管理システム
28日前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
27日前
ソフトバンクグループ株式会社
システム
27日前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
1か月前
ソフトバンクグループ株式会社
システム
1か月前
株式会社エクシング
携帯端末用プログラム、及び、カラオケシステム
5日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
1か月前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
1か月前
株式会社田中
防音材を充填した金属パイプ
26日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
13日前
日本音響エンジニアリング株式会社
放射音制御構造体及びその設計支援方法
29日前
続きを見る