TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025139381
公報種別
公開特許公報(A)
公開日
2025-09-26
出願番号
2024038294
出願日
2024-03-12
発明の名称
音声認識装置、音声認識システム、音声認識方法及びプログラム
出願人
株式会社リコー
代理人
個人
,
個人
主分類
G10L
15/04 20130101AFI20250918BHJP(楽器;音響)
要約
【課題】複数の話者の音声を含む発話区間の音声認識の精度をより良好に保つ音声認識装置を提供すること。
【解決手段】音声認識装置は、複数の話者の音声を含む音声データの発話区間を検出する発話区間検出部と、検出した発話区間内において話者が切り替わるタイミングを識別するために、音声データに複数の話者から各話者を識別する話者情報を付与する話者情報付与部と、発話区間内において付与された話者情報が切り替わる場合、話者情報が切り替わるタイミングで話者情報ごとに音声データを分割する音声データ分割部と、話者情報ごとに分割した音声データのそれぞれに対して音声認識を行う音声認識部と、を有する。
【選択図】図6
特許請求の範囲
【請求項1】
複数の話者の音声を含む音声データの発話区間を検出する発話区間検出部と、
前記検出した発話区間内において話者が切り替わるタイミングを識別するために、前記音声データに前記複数の話者から各話者を識別する話者情報を付与する話者情報付与部と、
前記発話区間内において付与された前記話者情報が切り替わる場合、前記話者情報が切り替わるタイミングで前記話者情報ごとに前記音声データを分割する音声データ分割部と、
前記話者情報ごとに分割した前記音声データのそれぞれに対して音声認識を行う音声認識部と、
を有する音声認識装置。
続きを表示(約 1,100 文字)
【請求項2】
前記話者情報付与部は、
前記発話区間を所定の単位ごとに前記話者の特徴を表す話者特徴を抽出する話者特徴抽出部と、
抽出した前記話者特徴に基づいて前記話者情報を判定し、判定した前記話者情報を前記音声データに付与する話者ラベル判定部と、
を有する
請求項1に記載の音声認識装置。
【請求項3】
前記話者ラベル判定部は、各時刻において前記各話者が発話しているか否かを判定し、前記判定の結果を前記話者情報として付与する
請求項2に記載の音声認識装置。
【請求項4】
前記話者ラベル判定部は、抽出した前記話者特徴の集合を複数のグループに分け、前記グループごとに前記話者情報を対応付けることで、前記話者特徴から前記話者情報を判定し、判定した前記話者情報を前記音声データに付与する
請求項2に記載の音声認識装置。
【請求項5】
前記話者ラベル判定部は、ユーザから受け付けた前記音声データに含まれる話者の数の指定に従って前記グループの数を決定し、決定した前記グループの数に基づいて前記話者情報を前記音声データに付与する
請求項4に記載の音声認識装置。
【請求項6】
前記話者ラベル判定部は、ユーザから受け付けた前記音声データに含まれる話者の数の範囲の指定に従って、前記グループの数を決定し、決定した前記グループの数に基づいて前記話者情報を前記音声データに付与する
請求項4に記載の音声認識装置。
【請求項7】
前記話者ラベル判定部は、ユーザから受け付けた有効又は無効の指定に基づき、前記話者情報の付与を有効化又は無効化する
請求項2に記載の音声認識装置。
【請求項8】
前記音声認識の結果及び前記話者情報を出力する結果出力部と、
前記音声認識の結果及び前記話者情報を編集する操作をユーザから受け付ける編集受付部と、
を有する請求項1に記載の音声認識装置。
【請求項9】
前記話者特徴抽出部は、前記発話区間を前後の前記発話区間と時間的に一部が重なるように所定の単位に分け、前記所定の単位ごとに話者特徴を抽出し、
前記話者ラベル判定部は、抽出した前記話者特徴に基づいて前記所定の単位ごとに前記話者情報を判定し、判定した前記話者情報を前記音声データに付与する
請求項2記載の音声認識装置。
【請求項10】
前記話者情報付与部は、話者ダイアライゼーション処理を行う
請求項1又は2に記載の音声認識装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、音声認識装置、音声認識システム、音声認識方法及びプログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
音声認識性能を高めるため、音声認識対象の音声データから音声が存在する区間(発話区間)を発話区間検出(Voice Activity Detection)により検出し、検出した発話区間の音声認識を行う技術は、従来から知られている。
【0003】
例えば、特許文献1には、複数の話者の音声が混合された音声データから各話者の発話区間の判定と、話者を識別可能な話者特徴の抽出とを行い、抽出した話者特徴を用いて発話区間の音声認識を行う技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
発話区間検出では、複数の話者の音声を含む発話区間が一つの発話区間として検出される場合がある。例えば、ある話者が発話を終えると同時に別の話者が発話を始めた場合などに複数の話者の音声を含む発話区間が検出される。
【0005】
しかしながら、従来の音声認識では、検出された一つの発話区間に複数の話者の音声が含まれている場合に、音声認識の精度が低下するという問題があった。特許文献1は、検出された一つの発話区間に複数の話者の音声が含まれている場合であっても、音声認識の精度を良好に保つことについての記載がない。
【0006】
本発明の一実施形態は、複数の話者の音声を含む発話区間の音声認識の精度をより良好に保つ音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係る音声認識装置は、複数の話者の音声を含む音声データの発話区間を検出する発話区間検出部と、前記検出した発話区間内において話者が切り替わるタイミングを識別するために、前記音声データに前記複数の話者から各話者を識別する話者情報を付与する話者情報付与部と、前記発話区間内において付与された前記話者情報が切り替わる場合、前記話者情報が切り替わるタイミングで前記話者情報ごとに前記音声データを分割する音声データ分割部と、前記話者情報ごとに分割した前記音声データのそれぞれに対して音声認識を行う音声認識部と、を有する。
【発明の効果】
【0008】
本発明によれば、複数の話者の音声を含む発話区間の音声認識の精度をより良好に保つことができる。
【図面の簡単な説明】
【0009】
第1の実施形態に係る音声認識システムの一例の構成図である。
スマートフォンの一例のハードウェア構成図である。
コンピュータの一例のハードウェア構成図である。
第1の実施形態に係る音声認識システムの一例の機能構成図である。
一般的な音声認識システムが行う音声認識方法の手順の一例のフローチャートである。
第1の実施形態に係る音声認識システムが行う音声認識方法の手順の一例のフローチャートである。
ステップS24の話者ダイアライゼーション処理の一例の説明図である。
第1の実施形態に係る話者特徴を抽出する処理の一例の説明図である。
第1の実施形態の音声認識システムのユーザインタフェースの一例を説明する図である。
第1の実施形態の音声認識システムのユーザインタフェースの一例を説明する図である。
第2の実施形態に係る音声認識システムの一例の構成図である。
第3の実施形態に係る音声認識装置の一例の機能構成図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、添付の図面を参照しながら説明する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
株式会社リコー
綴じ装置
26日前
株式会社リコー
画像形成装置
18日前
株式会社リコー
液体塗布装置
3日前
株式会社リコー
画像形成装置
17日前
株式会社リコー
画像形成装置
2日前
株式会社リコー
画像形成装置
10日前
株式会社リコー
映像表示装置
20日前
株式会社リコー
画像形成装置
26日前
株式会社リコー
画像形成装置
27日前
株式会社リコー
液体吐出装置
27日前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
履帯式走行体
27日前
株式会社リコー
画像投射装置
1か月前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
拡張アンテナ装置
2日前
株式会社リコー
投薬管理システム
18日前
株式会社リコー
画像投射システム
10日前
株式会社リコー
印刷応答補償機構
3日前
株式会社リコー
情報処理システム
20日前
株式会社リコー
カラー画像形成装置
1か月前
株式会社リコー
マーキングシステム
2日前
株式会社リコー
測定装置および測定方法
19日前
株式会社リコー
測定装置および測定方法
19日前
株式会社リコー
測定装置および測定方法
19日前
株式会社リコー
定着装置及び画像形成装置
9日前
株式会社リコー
現像装置及び画像形成装置
1か月前
株式会社リコー
定着装置及び画像形成装置
3日前
株式会社リコー
給送装置及び画像形成装置
27日前
株式会社リコー
樹脂粒子およびその製造方法
18日前
株式会社リコー
測定装置および状態測定方法
19日前
株式会社リコー
液吐出装置、及び液吐出方法
3日前
株式会社リコー
塗装装置、及び塗装システム
1か月前
株式会社リコー
センサ素子及びセンサアレイ
9日前
株式会社リコー
センサ素子及びセンサアレイ
9日前
株式会社リコー
導光部材、光学系及び表示装置
11日前
続きを見る
他の特許を見る