TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025138674
公報種別
公開特許公報(A)
公開日
2025-09-25
出願番号
2025094545,2023541746
出願日
2025-06-06,2022-01-12
発明の名称
バイノーラル録音におけるスピーチ検出及び強調
出願人
ドルビー ラボラトリーズ ライセンシング コーポレイション
,
ドルビー・インターナショナル・アーベー
代理人
弁理士法人ITOH
主分類
G10L
21/0208 20130101AFI20250917BHJP(楽器;音響)
要約
【課題】スピーチのバイノーラル録音を改善する方法、システム及び非一時的なコンピュータ可読媒体を提供する。
【解決手段】方法は、受信したバイノーラル信号をフレームに分割するステップと、各フレームに時間周波数変換を適用するステップと、時間周波数表現に基づいてフレームの特徴を計算するステップと、分類器によって、特徴のサブセットに基づいて、各フレームを自己スピーチ又は外部スピーチとして分類するステップと、特徴のサブセットに基づいて非類似度を計算するステップと、非類似度関数のピークにおいて信号をセグメント化するステップと、各セグメントに対して、セグメントの属するフレームの分類子データを集約することによって、自己スピーチ又は外部スピーチの全体的なクラスを決定するステップと、スピーチ強調チェーンで、決定された全体的なクラスに基づいて各セグメントを処理するステップと、を有する。
【選択図】図2
特許請求の範囲
【請求項1】
方法であって:
- バイノーラル音声信号を受信するステップと;
- バイノーラル音声信号をフレームに分割するステップと;
- 各フレームに時間周波数変換を適用するステップと;
- 時間周波数表現に基づいて前記フレームの特徴を計算するステップと;
- 分類器によって、少なくとも部分的に前記特徴の第1サブセットに基づいて各フレームを自己スピーチ又は外部スピーチとして分類するステップであって、自己スピーチは、バイノーラル音声信号の録音に関連する機器のユーザのスピーチであり、外部スピーチは、バイノーラル音声信号の録音に関連する機器のユーザ以外のスピーチである、ステップと;
- 前記特徴の第2サブセットに基づいて非類似度関数を計算するステップと;
- 前記非類似度関数のピークにおいて前記バイノーラル音声信号をセグメント化するステップと;
- 各セグメントに対し、前記セグメントに属する前記フレームの分類子データを集約することによって、自己スピーチ又は外部スピーチのうちのそれぞれの全体的なクラスを決定するステップと;
- スピーチ強調チェーンで各セグメントを処理するステップであって、前記スピーチ強調チェーンの設定は、かかるセグメントに対して決定された全体的クラスに基づく、ステップと、を含む、
方法。
続きを表示(約 1,100 文字)
【請求項2】
音声活動検出(VAD)を使用して各フレームのそれぞれのスピーチ確率を計算するステップであって、前記スピーチ確率が所定の値よりも大きいフレームのみが分類及びセグメント化のために考慮される、ステップを含む、
請求項1記載の方法。
【請求項3】
前記特徴は、周波数帯域ごとのエネルギー、所定の周波数範囲におけるスペクトル勾配、周波数帯域ごとのインターチャネルコヒーレンス、又はメル周波数ケプストラム係数のうちの少なくとも1つを含む、
請求項1記載の方法。
【請求項4】
前記分類器がサポートベクターマシンである、
請求項1乃至3いずれか1項記載の方法。
【請求項5】
前記非類似度関数は、ベイズ情報量基準(BIC)を前記特徴の前記第2サブセットに適用することによって得られる、
請求項1乃至3いずれか1項記載の方法。
【請求項6】
前記特徴の前記第1サブセットは、メル周波数ケプストラム係数の第1セットを含み、
前記特徴の前記第2サブセットは、メル周波数ケプストラム係数の前記第1セットのサブセットであるメル周波数ケプストラム係数の第2セットを含む、
請求項1乃至5いずれか1項記載の方法。
【請求項7】
メル周波数ケプストラム係数の前記第2セットは、検出された自己スピーチ及び検出された外部スピーチを含まないフレームに対応する、
請求項6記載の方法。
【請求項8】
前記非類似度関数の値が所定の値より大きく、最も近い前記ピークまでの距離が他の所定の値より大きいことを条件として、前記非類似度関数のピークを保持するステップを含む、
請求項7記載の方法。
【請求項9】
それぞれの全体クラスを決定するステップは:
セグメント内の外部スピーチとして分類されたフレームの数(CE)を計算するステップと;
セグメント内の自己スピーチとして分類されたフレームの数(CS)を計算するステップと;
CS≧CEの場合にはクラス自己スピーチを割り当て、CE>CSの場合にはクラス外部スピーチを割り当てるステップと、を含む、
請求項1記載の方法。
【請求項10】
式abs(CE-CS)/Nを使用して各セグメントにそれぞれの分類信頼値を割り当てるステップであって、Nは前記セグメント内のフレームの総数である、ステップを更に含む、
請求項9記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
[関連出願の相互参照]
関連出願の相互参照本出願は、2021年3月17日及び2021年9月17日にそれぞれ出願された米国仮特許出願第63/162,289号及び第63/245,548号;並びに2021年1月12日に出願されたスペイン特許出願第P202130013号に基づく優先権を主張し、これらの各々は、その全体が参照により組み込まれる。
続きを表示(約 2,100 文字)
【0002】
[技術分野]
本開示は、バイノーラル録音におけるスピーチの強調のための方法、この方法を実行するためのシステム、及びこの方法を実行するための命令を記憶する非一時的コンピュータ可読媒体に関する。
【背景技術】
【0003】
イヤホン又はイヤーバッド(Earbuds)は、電話及びタブレットなどのスマートデバイスと対になるワイヤレスインイヤーヘッドホンであり、それらは、スマートフォン ユーザにとって、音声を聞くため、また内蔵マイクの追加により音声をキャプチャしてリアルタイム通信や音声メッセージの録音を行うための一般的な選択肢になりつつある。イヤホンは、インタビューを行い、ビデオログ(vlog)又はポッドキャストコンテンツを作成し、又は単に音声メモを記録したい人々のために、専用マイクロホンなしでスピーチを記録するための便利な代替手段である。
【発明の概要】
【0004】
本開示では、「自己スピーチ又は自己発話(self-speech)」という表現は、イヤホンを装着している人のスピーチを指すために使用され、「外部スピーチ又は外部発話(external speech)」という表現は、イヤホンを装着している人以外の人からのスピーチを指すために使用される。
【0005】
マイクロホンは、イヤホンを装着している人の耳の中に位置するため、自己スピーチを録音するとき、口からイヤホンへの音の伝搬は、口の指向性と組み合わせられて、音声のスペクトルに有意な変更、すなわち、口の正面に位置付けられる従来のマイクロホンがピックアップするであろうものと比較して、高周波エネルギーの損失を引き起こす。外部スピーチを録音するとき、各外部話者(external speaker)の距離は、自己スピーチの音量と比較してレベルの損失をもたらす。これらのファクタ(レベルの損失及び高周波数の損失)は両方とも、自己スピーチ及び外部スピーチ間の音量及び調性又は音色(tonality)の著しい差につながる。これらの影響の補償は、自己スピーチ及び外部スピーチの識別、録音のセグメント化、及び最適設定を用いた各部分の処理から利益を得る。
【0006】
話者セグメンテーション及びダイアリングは、ベイズ情報量基準(BIC:Bayes Information Criterion)などの十分に確立された統計的手法、及び最近のAIベースの技法を用いて、長年にわたって活発な研究分野であった。これらの技術は、話者又は音響条件の変化を検出するのに有効であるが、スピーチが自己であるか外部であるかなどの追加情報を提供しない。特に、それらは、モノラル信号(単一チャネル録音)に作用し、したがって、それらは、バイノーラル録音に埋め込まれるような音の空間的態様を考慮しない。左右のバイノーラルマイクでの信号間の類似度、及び到来方向などの空間的態様には、自己スピーチと外部スピーチを区別するタスクにとって重要な情報が含まれていることが分かるが、そのような手がかりは通常、セグメント化の目的では無視される。
【0007】
スピーチ強調のための自動ソリューションが存在するが、それらは、話者セグメント化情報を検出も使用もせず、したがって、それらは、バランスのとれた音色及び音量を達成するための自己スピーチ及び外部スピーチの最適な調整された処理を可能にしない。
【0008】
本開示は、自己スピーチ及び外部スピーチに対応する部分を識別し、それに応じて録音をセグメント化し、その後、自己スピーチ条件又は外部スピーチ条件による最適設定で各セグメントに独立した強調を適用することによって、スピーチのバイノーラル録音を改善する方法を説明する。
【0009】
バイノーラル信号を入力として、時間周波数変換を適用して、信号を周波数帯域に分割する。並行して、信号は音声活動検出器又は音声区画検出器(Voice Activity Detector)に送られ、信号のどの部分がスピーチを含んでいるかを識別し、非スピーチ部分の処理を回避する。
【0010】
スペクトル特徴は、信号の時間周波数表現から抽出され、フレームごとに(on a frame-by-frame basis)自己スピーチ及び外部スピーチに分類するために使用される。並行して、これらの特徴のいくつかは、話者識別又は音響条件の変化が起こったフレームを見つけるために統計的方法を使用する非類似度セグメント化ユニット(Dissimilarity Segmentation unit)に送信される。セグメント化ユニットは、分類及び非類似度セグメント化ユニットから情報を受け取り、それらを多数決投票によって組み合わせて、各セグメントについて(自己又は外部を)決定する。セグメント化は、録音を複数の独立した録音として処理するために使用され、各録音は、自己及び外部スピーチへの分類から導出される適切な設定を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
破裂爆発波動体感バルーン
1か月前
株式会社白鳩
音漏れ抑制マスク
29日前
株式会社白鳩
音漏れ抑制マスク
29日前
株式会社イシダ
商品処理装置
1か月前
株式会社豊田中央研究所
吸音構造体
3日前
日本音響エンジニアリング株式会社
騒音低減装置
1か月前
川崎重工業株式会社
表面材
1か月前
ヤマハ株式会社
リード
1か月前
株式会社東芝
吸音装置
1日前
株式会社フジタ
環境音快音化システム
1か月前
株式会社イノアックコーポレーション
吸音材
22日前
NOK株式会社
吸音構造体
1か月前
個人
歌唱技術表示装置および歌唱技術表示方法
1か月前
カシオ計算機株式会社
減音器具
1日前
KDDI株式会社
認証装置、認証方法及び認証プログラム
22日前
株式会社第一興商
カラオケ装置
23日前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
3日前
カシオ計算機株式会社
減音器具
1日前
トヨタ自動車株式会社
防音カバー
1か月前
個人
楽曲検索装置、楽曲検索方法、及び楽曲検索プログラム
1か月前
中原大學
能動騒音除去機能を持つレンジフード
3日前
株式会社エクシング
端末装置、及び、端末装置用プログラム
1か月前
シャープ株式会社
電子機器および電子機器の制御方法
1か月前
マツダ株式会社
内燃機関の吸気音増幅装置
1か月前
トヨタ自動車株式会社
電気自動車
23日前
株式会社JVCケンウッド
クリッピング装置及びクリッピング方法
3日前
株式会社麗光
防音積層体とその製造に用いる遮音膜、および遮音膜シート
1か月前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
1か月前
株式会社東芝
吸音装置及び音響メタマテリアル
1日前
ローランド株式会社
打楽器および打面の形成方法
1か月前
宮澤フル-ト製造株式会社
タンポ及び木管楽器
1か月前
カシオ計算機株式会社
制御装置、方法およびプログラム
3日前
カシオ計算機株式会社
制御装置、方法およびプログラム
3日前
カシオ計算機株式会社
演奏装置、方法およびプログラム
1か月前
続きを見る
他の特許を見る