特許ウォッチ

公開番号2025125872
公報種別公開特許公報(A)
公開日2025-08-28
出願番号2024022108
出願日2024-02-16
発明の名称音声抽出装置及び音声抽出方法
出願人NTT株式会社,ブルノユニバーシティーオブテクノロジー
代理人弁理士法人酒井国際特許事務所
主分類G10L 21/0308 20130101AFI20250821BHJP(楽器;音響)
要約【課題】目的音声抽出の性能を向上させること。
【解決手段】基本エンコーダは、混合音声から特徴量を計算する。強化部112は、混合音声を入力したSSLモデルに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた階層的特徴量を計算する。話者エンコーダは、SSLモデルを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する。抽出ネットワークは、基本エンコーダが出力した特徴量、階層的特徴量及び埋め込み情報を基に、混合音声から目的音源の音声を抽出する。
【選択図】図4
特許請求の範囲【請求項１】
混合音声から第１の特徴量を計算する第１の計算部と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第２の特徴量を計算する第２の計算部と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第３の計算部と、
前記第１の特徴量、前記第２の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、
を有することを特徴とする音声抽出装置。
続きを表示（約 710 文字）【請求項２】
前記第２の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力の畳み込みを行った結果と、１つ前のアップサンプリング層の出力とを足し合わせた結果の逆畳み込みを出力することにより、前記第２の特徴量を計算する
ことを特徴とする請求項１に記載の音声抽出装置。
【請求項３】
前記第２の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力と、１つ前のアップサンプリング層の出力とを結合した結果の逆畳み込みを出力することにより、前記第２の特徴量を計算する
ことを特徴とする請求項１に記載の音声抽出装置。
【請求項４】
音声抽出装置によって実行される音声抽出方法であって、
混合音声から第１の特徴量を計算する第１の計算工程と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第２の特徴量を計算する第２の計算工程と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第３の計算工程と、
前記第１の特徴量、前記第２の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出工程と、
を含むことを特徴とする音声抽出方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、音声抽出装置及び音声抽出方法に関する。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
複数の話者の音声が含まれる混合音声から、目的話者の音声を抽出する目的音声抽出（ＴＳＥ：Target Speech Extraction）という技術が知られている。ＴＳＥは、混合音声を入力とするニューラルネットワークであって、あらかじめ録音された目的話者の音声（以下、登録音声）の信号によって調整されたニューラルネットワークが用いられる。
【０００３】
例えば、非特許文献１には、ニューラルネットワークを用いて混合音声から目的音声を抽出する際に、補助的なニューラルネットワークを用いて取得した目的音声の埋め込み情報を利用する方法が記載されている。
【先行技術文献】
【非特許文献】
【０００４】
M. Delcroix et al., "Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam," ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 691-695, doi: 10.1109/ICASSP40776.2020.9054683.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来の技術では、目的音声以外の音声が間違って抽出されることがあり、目的音声抽出の性能を向上させることができない場合があるという問題がある。
【０００６】
近年、自己教師あり学習（ＳＳＬ：self-supervised learning）方式で事前に訓練された音声モデル（以下、ＳＳＬモデルと呼ぶ）が、自動音声認識（ＡＳＲ：automatic speech recognition）、話者検証などの様々な音声処理タスクに対して有益であることが報告されている。
【０００７】
ＳＳＬモデルによれば、強力かつ頑健な話者表現が可能になり、また、音声の抽出において有用な情報（例えば、音素情報）を得ることができる。このため、仮にＳＳＬモデルをＴＳＥに適用することができれば、ＴＳＥの性能が向上すると考えられる。
【０００８】
一方で、ＴＳＥ及び他の音声強調（ＳＥ：speech enhancement）タスクにＳＳＬモデルを効果的に適用する方法は確立されていない。これは、最先端（ＳＯＴＡ：State-of-the-Art）のＴＳＥ等のモデルと、ＳＳＬモデルとの時間分解能の違いをどのように扱うかが見出されていないためである。
【課題を解決するための手段】
【０００９】
上述した課題を解決し、目的を達成するために、音声抽出装置は、混合音声から第１の特徴量を計算する第１の計算部と、前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第２の特徴量を計算する第２の計算部と、前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第３の計算部と、前記第１の特徴量、前記第２の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、を有することを特徴とする。
【発明の効果】
【００１０】
本発明によれば、目的音声抽出の性能を向上させることができる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許