TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025125872
公報種別公開特許公報(A)
公開日2025-08-28
出願番号2024022108
出願日2024-02-16
発明の名称音声抽出装置及び音声抽出方法
出願人NTT株式会社,ブルノ ユニバーシティー オブ テクノロジー
代理人弁理士法人酒井国際特許事務所
主分類G10L 21/0308 20130101AFI20250821BHJP(楽器;音響)
要約【課題】目的音声抽出の性能を向上させること。
【解決手段】基本エンコーダは、混合音声から特徴量を計算する。強化部112は、混合音声を入力したSSLモデルに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた階層的特徴量を計算する。話者エンコーダは、SSLモデルを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する。抽出ネットワークは、基本エンコーダが出力した特徴量、階層的特徴量及び埋め込み情報を基に、混合音声から目的音源の音声を抽出する。
【選択図】図4
特許請求の範囲【請求項1】
混合音声から第1の特徴量を計算する第1の計算部と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算部と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算部と、
前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、
を有することを特徴とする音声抽出装置。
続きを表示(約 710 文字)【請求項2】
前記第2の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力の畳み込みを行った結果と、1つ前のアップサンプリング層の出力とを足し合わせた結果の逆畳み込みを出力することにより、前記第2の特徴量を計算する
ことを特徴とする請求項1に記載の音声抽出装置。
【請求項3】
前記第2の計算部は、前記ニューラルネットワークに含まれる複数の層のそれぞれに対応するアップサンプリング層を有し、
前記アップサンプリング層のそれぞれが、対応する前記ニューラルネットワークの層の出力と、1つ前のアップサンプリング層の出力とを結合した結果の逆畳み込みを出力することにより、前記第2の特徴量を計算する
ことを特徴とする請求項1に記載の音声抽出装置。
【請求項4】
音声抽出装置によって実行される音声抽出方法であって、
混合音声から第1の特徴量を計算する第1の計算工程と、
前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算工程と、
前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算工程と、
前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出工程と、
を含むことを特徴とする音声抽出方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声抽出装置及び音声抽出方法に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
複数の話者の音声が含まれる混合音声から、目的話者の音声を抽出する目的音声抽出(TSE:Target Speech Extraction)という技術が知られている。TSEは、混合音声を入力とするニューラルネットワークであって、あらかじめ録音された目的話者の音声(以下、登録音声)の信号によって調整されたニューラルネットワークが用いられる。
【0003】
例えば、非特許文献1には、ニューラルネットワークを用いて混合音声から目的音声を抽出する際に、補助的なニューラルネットワークを用いて取得した目的音声の埋め込み情報を利用する方法が記載されている。
【先行技術文献】
【非特許文献】
【0004】
M. Delcroix et al., "Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam," ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 691-695, doi: 10.1109/ICASSP40776.2020.9054683.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、目的音声以外の音声が間違って抽出されることがあり、目的音声抽出の性能を向上させることができない場合があるという問題がある。
【0006】
近年、自己教師あり学習(SSL:self-supervised learning)方式で事前に訓練された音声モデル(以下、SSLモデルと呼ぶ)が、自動音声認識(ASR:automatic speech recognition)、話者検証などの様々な音声処理タスクに対して有益であることが報告されている。
【0007】
SSLモデルによれば、強力かつ頑健な話者表現が可能になり、また、音声の抽出において有用な情報(例えば、音素情報)を得ることができる。このため、仮にSSLモデルをTSEに適用することができれば、TSEの性能が向上すると考えられる。
【0008】
一方で、TSE及び他の音声強調(SE:speech enhancement)タスクにSSLモデルを効果的に適用する方法は確立されていない。これは、最先端(SOTA:State-of-the-Art)のTSE等のモデルと、SSLモデルとの時間分解能の違いをどのように扱うかが見出されていないためである。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、音声抽出装置は、混合音声から第1の特徴量を計算する第1の計算部と、前記混合音声を入力したニューラルネットワークに含まれる複数の層のそれぞれの出力をアップサンプリングして足し合わせた第2の特徴量を計算する第2の計算部と、前記ニューラルネットワークを用いて、登録済みの目的音源の音声を基に埋め込み情報を計算する第3の計算部と、前記第1の特徴量、前記第2の特徴量及び前記埋め込み情報を基に、前記混合音声から前記目的音源の音声を抽出する抽出部と、を有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、目的音声抽出の性能を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
圧力センサ
25日前
NTT株式会社
光デバイス
1か月前
NTT株式会社
信号送信装置
1か月前
NTT株式会社
光信号処理装置
1か月前
NTT株式会社
復号装置及び復号方法
10日前
NTT株式会社
推定装置及び推定方法
18日前
NTT株式会社
解析装置および解析方法
24日前
NTT株式会社
通信システム、及び通信方法
1か月前
NTT株式会社
音声抽出装置及び音声抽出方法
1か月前
NTT株式会社
情報処理装置、及び情報処理方法
4日前
NTT株式会社
情報処理装置、及び情報処理方法
4日前
NTT株式会社
交通量推定装置及び交通量推定方法
18日前
NTT株式会社
検索装置、検索方法及びプログラム
1か月前
NTT株式会社
秘匿計算システム及び秘匿計算方法
1か月前
NTT株式会社
映像処理装置、方法及びプログラム
14日前
NTT株式会社
秘匿計算システム及び秘匿計算方法
1か月前
NTT株式会社
通信システム、方法及びプログラム
10日前
NTT株式会社
通信システム、方法及びプログラム
10日前
NTT株式会社
光ファイバの群遅延時間測定システム
24日前
NTT株式会社
情報処理装置、方法およびプログラム
1か月前
NTT株式会社
イオン伝送装置、及びイオン伝送方法
1か月前
NTT株式会社
量子鍵配送システム及び量子鍵配送方法
5日前
NTT株式会社
電子署名システム、方法及びプログラム
10日前
NTT株式会社
座屈剥離構造の予測装置および予測方法
10日前
NTT株式会社
データ解析装置、方法およびプログラム
1か月前
NTT株式会社
単一光子生成装置、及び単一光子生成方法
1か月前
NTT株式会社
生成システム、生成装置、および生成方法
1か月前
NTT株式会社
微生物の土壌中での生存性を調節する方法
5日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
1か月前
NTT株式会社
測定装置、測定方法、及び、測定プログラム
6日前
NTT株式会社
周期検出装置、周期検出方法及びプログラム
1か月前
NTT株式会社
推論装置、学習装置、推論方法、及びプログラム
24日前
NTT株式会社
推定装置、復元装置、推定方法、およびプログラム
3日前
NTT株式会社
情報処理システム、情報処理装置および情報処理方法
11日前
NTT株式会社
通信品質予測装置、通信品質予測方法、及びプログラム
17日前
NTT株式会社
組合せ最適化方法、組合せ最適化装置、及びプログラム
14日前
続きを見る