TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025125872
公報種別公開特許公報(A)
公開日2025-08-28
出願番号2024022108
出願日2024-02-16
発明の名称音声抽出装置及び音声抽出方法
出願人NTT株式会社,ブルノ ユニバーシティー オブ テクノロジー
代理人弁理士法人酒井国際特許事務所
主分類G10L 21/0308 20130101AFI20250821BHJP(楽器;音響)
要約【課題】目的音声抽出の性能を向上させること。
【解決手段】基本エンコーダは、混合音声から特徴量を計算する。強化部112は、混合音声を入力したSSLモデルに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた階層的特徴量を計算する。話者エンコーダは、SSLモデルを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する。抽出ネットワークは、基本エンコーダが出力した特徴量、階層的特徴量及び埋め込み情報を基に、混合音声から目的音源の音声を抽出する。
【選択図】図4
特許請求の範囲【請求項1】
混合音声から第1の特徴量を計算する第1の計算部と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算部と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算部と、
前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、
を有することを特徴とする音声抽出装置。
続きを表示(約 710 文字)【請求項2】
前記第2の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力の畳み込みを行った結果と、1つ前のアップサンプリング層の出力とを足し合わせた結果の逆畳み込みを出力することにより、前記第2の特徴量を計算する
ことを特徴とする請求項1に記載の音声抽出装置。
【請求項3】
前記第2の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力と、1つ前のアップサンプリング層の出力とを結合した結果の逆畳み込みを出力することにより、前記第2の特徴量を計算する
ことを特徴とする請求項1に記載の音声抽出装置。
【請求項4】
音声抽出装置によって実行される音声抽出方法であって、
混合音声から第1の特徴量を計算する第1の計算工程と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算工程と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算工程と、
前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出工程と、
を含むことを特徴とする音声抽出方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声抽出装置及び音声抽出方法に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
複数の話者の音声が含まれる混合音声から、目的話者の音声を抽出する目的音声抽出(TSE:Target Speech Extraction)という技術が知られている。TSEは、混合音声を入力とするニューラルネットワークであって、あらかじめ録音された目的話者の音声(以下、登録音声)の信号によって調整されたニューラルネットワークが用いられる。
【0003】
例えば、非特許文献1には、ニューラルネットワークを用いて混合音声から目的音声を抽出する際に、補助的なニューラルネットワークを用いて取得した目的音声の埋め込み情報を利用する方法が記載されている。
【先行技術文献】
【非特許文献】
【0004】
M. Delcroix et al., "Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam," ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 691-695, doi: 10.1109/ICASSP40776.2020.9054683.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、目的音声以外の音声が間違って抽出されることがあり、目的音声抽出の性能を向上させることができない場合があるという問題がある。
【0006】
近年、自己教師あり学習(SSL:self-supervised learning)方式で事前に訓練された音声モデル(以下、SSLモデルと呼ぶ)が、自動音声認識(ASR:automatic speech recognition)、話者検証などの様々な音声処理タスクに対して有益であることが報告されている。
【0007】
SSLモデルによれば、強力かつ頑健な話者表現が可能になり、また、音声の抽出において有用な情報(例えば、音素情報)を得ることができる。このため、仮にSSLモデルをTSEに適用することができれば、TSEの性能が向上すると考えられる。
【0008】
一方で、TSE及び他の音声強調(SE:speech enhancement)タスクにSSLモデルを効果的に適用する方法は確立されていない。これは、最先端(SOTA:State-of-the-Art)のTSE等のモデルと、SSLモデルとの時間分解能の違いをどのように扱うかが見出されていないためである。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、音声抽出装置は、混合音声から第1の特徴量を計算する第1の計算部と、前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算部と、前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算部と、前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、を有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、目的音声抽出の性能を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
試験装置および試験方法
27日前
NTT株式会社
分類装置、および分類方法
29日前
NTT株式会社
量子計算装置、及び制御装置
15日前
NTT株式会社
音声抽出装置及び音声抽出方法
今日
NTT株式会社
光増幅器及び光増幅器監視方法
15日前
NTT株式会社
足場を構築する施工方法及び治具
1か月前
NTT株式会社
無線通信方法及び無線通信システム
9日前
NTT株式会社
推論装置、推論方法、及びプログラム
13日前
NTT株式会社
生成システム、生成装置、および生成方法
3日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
3日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
10日前
NTT株式会社
置局設計装置、置局設計方法及びプログラム
21日前
NTT株式会社
量子計算装置、量子計算方法、及びプログラム
1か月前
NTT株式会社
配送計画装置、配送計画方法、及びプログラム
21日前
NTT株式会社
移動ロボット、移動量推定方法、及びプログラム
23日前
NTT株式会社
通信制御システム、通信制御方法及びプログラム
21日前
NTT株式会社
修辞構造解析装置、修辞構造解析方法及びプログラム
8日前
NTT株式会社
画像処理装置、画像処理方法及び画像処理プログラム
13日前
NTT株式会社
情報処理装置、情報処理方法および情報処理プログラム
8日前
富士通株式会社
データ転送制御装置および情報処理装置
14日前
NTT株式会社
簡易な方法で光ファイバをセンサ化するシステム及び方法
16日前
富士通株式会社
データ転送制御装置および情報処理装置
14日前
NTT株式会社
伝送システム、送信装置、受信装置、伝送方法およびプログラム
21日前
NTT株式会社
電気刺激装置、電気刺激システム、電気刺激方法及びプログラム
10日前
NTT株式会社
基地局及び端末
1か月前
NTT株式会社
基地局及び端末
2日前
NTT株式会社
送信局及び受信局
15日前
NTT株式会社
音響信号出力装置
2日前
NTT株式会社
音響信号出力装置
1か月前
NTT株式会社
通信ネットワークシステム、通信方法、通信端末およびプログラム
21日前
NTT株式会社
運動耐容能推定方法、運動耐容能推定装置及びコンピュータプログラム
24日前
NTT株式会社
装置、方法及びプログラム
6日前
NTT株式会社
電磁界推定システム、電磁界推定装置、電磁界推定方法および電磁界推定用プログラム
23日前
NTT株式会社
収集装置、収集方法および収集プログラム
27日前
NTT株式会社
制御装置、制御方法、無線通信システム、及びプログラム
21日前
NTT株式会社
直流配電システム、制御装置、動作状態判定方法、及びプログラム
1か月前
続きを見る