TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025157327
公報種別
公開特許公報(A)
公開日
2025-10-15
出願番号
2025115526,2023526072
出願日
2025-07-09,2021-10-29
発明の名称
深層学習ベースの音声強調
出願人
ドルビー ラボラトリーズ ライセンシング コーポレイション
代理人
弁理士法人ITOH
主分類
G10L
21/0232 20130101AFI20251007BHJP(楽器;音響)
要約
【課題】雑音を抑制して音声を強調するためのシステム及び関連する方法を提供する。
【解決手段】システムは、元の雑音ある波形に対応するバンド分けされたエネルギーを取得し、各フレームにおける各バンドに存在する音声の量を示す音声値を生成するニューラルネットワークモデルをトレーニングする。ニューラルモデルは、いくらかのルックアヘッドを実施する特徴抽出ブロックを有する。特徴抽出ブロックの後に、収縮パスを形成する周波数ドメインに沿った定常ダウンサンプリングを有するエンコーダが続く。エンコーダの後に、膨張パスを形成する周波数ドメインに沿った定常アップサンプリングを有した対応するデコーダが続く。デコーダは、対応するレベルでエンコーダからスケーリングされた出力特徴マップを受信する。デコーダの後の分類ブロックは、各フレームにおける複数の周波数バンドの各周波数バンドについて、存在する音声の量を示す音声値を生成する。
【選択図】なし
特許請求の範囲
【請求項1】
雑音を抑制して音声を強調するコンピュータ実装された方法であって、
プロセッサにより、1つ以上のフレームを有する入力オーディオデータを受信するステップと、
前記プロセッサにより、前記入力オーディオデータを使用してニューラルネットワークモデルを実行して、前記1つ以上のフレームの各フレームにおける複数の周波数バンドの各周波数バンドについての音声値を生成するステップであり、前記ニューラルネットワークモデルは、
特徴抽出ブロックと、
エンコーダと、
デコーダと、
分類ブロックと、を有する、ステップと、
前記音声値に基づいて、前記入力オーディオデータにおける雑音を抑制する出力オーディオデータを生成するステップと、
を有するコンピュータ実装された方法。
続きを表示(約 1,400 文字)
【請求項2】
前記特徴抽出ブロックは、前記入力オーディオデータから特徴を抽出するために特定数のフレームのルックアヘッドを実施するように構成される、請求項1に記載のコンピュータ実装された方法。
【請求項3】
前記エンコーダは、周波数次元に沿って前記入力オーディオデータ内の次第に大きくなる受容野に対応する第1の特徴マップを生成する第1の一連のブロックを有する、請求項1に記載のコンピュータ実装された方法。
【請求項4】
前記第1の一連のブロックの各ブロックが、特徴計算ブロック及び周波数ダウンサンプラを有し、前記特徴計算ブロックは一連の畳み込み層を有し、該一連の畳み込み層のうちのある畳み込み層の出力データが、該一連の畳み込み層のうちの後続の全ての畳み込み層に供給され、該一連の畳み込み層は、時間次元に沿って次第に大きくなるダイレーションを実装する、請求項3に記載のコンピュータ実装された方法。
【請求項5】
前記デコーダは、前記エンコーダによって生成された出力特徴マップを入力特徴マップとして受信し、第2の特徴マップを生成する第2の一連のブロックを有する、請求項1に記載のコンピュータ実装された方法。
【請求項6】
前記分類ブロックは、前記第2の特徴マップを受信し、前記1つ以上のフレームの各フレームにおける前記複数の周波数バンドの各周波数バンドについて、存在する音声の量を示す音声値を生成するように構成される、請求項5に記載のコンピュータ実装された方法。
【請求項7】
入力波形を受信するステップと、
前記入力波形を、前記時間次元に沿った前記1つ以上のフレームにて前記周波数次元に沿った複数の周波数ビンをカバーする生オーディオデータに変換するステップと、
前記複数の周波数ビンを前記複数の周波数バンドにグループ化することによって、前記生オーディオデータを前記入力オーディオデータに変換するステップと、
前記音声値に対して逆バンディングを実行して、前記1つ以上のフレームの各フレームにおける前記複数の周波数ビンの各周波数ビンについて、更新された音声値を生成するステップと、
前記更新された音声値を前記生オーディオデータに適用して新たな出力データを生成するステップと、
前記新たな出力データを、強調された波形に変換するステップと、
を更に有する請求項1に記載のコンピュータ実装された方法。
【請求項8】
前記複数の周波数バンドは、より高い周波数で、より多くの周波数ビンをカバーする、知覚的に刺激されるバンドを有する、請求項1に記載のコンピュータ実装された方法。
【請求項9】
前記特徴抽出ブロックは、前記時間次元に沿って特定のサイズを持つ畳み込みカーネルを有し、前記特定のサイズは、前記エンコーダ又は前記デコーダにおけるいずれの畳み込みカーネルの前記時間次元に沿ったサイズよりも大きい、請求項1又は2に記載のコンピュータ実装された方法。
【請求項10】
前記特徴抽出ブロックは、バッチ正規化層と、それに続く2次元畳み込みカーネルを有する畳み込み層とを有する、請求項1又は2に記載のコンピュータ実装された方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本出願は、2020年11月18日に出願された米国仮出願第63/115,213号、2021年7月14日に出願された米国仮出願第63/221,629号、及び2020年10月29日に出願された国際特許出願第PCT/CN2020/124635号に対する優先権を主張するものであり、これらの全てをそれらの全体にてここに援用する。
続きを表示(約 3,000 文字)
【0002】
本出願は、音声からの雑音低減に関する。より具体的には、以下に説明される実施形態例は、深層学習モデルを適用して、大規模音声コンテキストからフレームベースの推論を生成することに関する。
【背景技術】
【0003】
このセクションに記載されたアプローチは、先に進められ得るアプローチであり、必ずしもこれまでに考案又は追求されたアプローチではない。従って、別段の断りがない限り、このセクションに記載されたアプローチのいずれも、それらがこのセクションに含まれていることのみを理由にして従来技術をなすと想定されるべきでない。
【0004】
音声と雑音の混合信号から雑音を正確に除去することは、様々な形態の音声及び様々な種類の雑音があり得ることを考えると一般に困難である。リアルタイムで雑音を抑制することは特に難題であり得る。
【発明の概要】
【0005】
雑音を抑制して音声を強調するためのシステム及び関連する方法が開示される。当該方法は、プロセッサにより、時間次元に沿った複数のフレームにて、周波数次元に沿った複数の周波数バンドをカバーする入力オーディオデータを受信するステップと、前記プロセッサにより、ニューラルネットワークモデルをトレーニングするステップであり、前記ニューラルネットワークモデルは、前記入力オーディオデータから特徴を抽出する際に特定数のフレームのルックアヘッドを実施する特徴抽出ブロックと、前記周波数次元に沿って前記入力オーディオデータ内の次第に大きくなる受容野に対応する第1の特徴マップを生成する第1の一連のブロックを含むエンコーダと、前記エンコーダによって生成された出力特徴マップを入力特徴マップとして受信し、第2の特徴マップを生成する第2の一連のブロックを含むデコーダと、前記第2の特徴マップを受信し、前記複数のフレームの各フレームにおける前記複数の周波数バンドの各周波数バンドについて、存在する音声の量を示す音声値を生成する分類ブロックと、を含む、ステップと、1つ以上のフレームを有する新たなオーディオデータを受信するステップと、前記新たなオーディオデータに対して前記ニューラルネットワークモデルを実行して、前記1つ以上のフレームの各フレームにおける前記複数の周波数バンドの各周波数バンドについて、新たな音声値を生成するステップと、前記新たな音声値に基づいて、前記新たなオーディオデータにおける雑音を抑制する新たな出力データを生成するステップと、前記新たな出力データを送信するステップと、を有する。
【図面の簡単な説明】
【0006】
以下の図を含み、同様の要素は似通った参照符号で指す添付の図面の図において、限定によってではなく例として、本発明の実施形態例が示される。
様々な実施形態が実施され得るネットワーク化されたコンピュータシステムの一例を示している。
開示される実施形態に従ったオーディオ管理サーバコンピュータのコンポーネント例を示している。
雑音低減のためのニューラルネットワークモデルの一例を示している。
特徴抽出ブロックの一例を示している。
特徴抽出ブロックの他の一例を示している。
図3に示したニューラルモデルのコンポーネントとしてのニューラルネットワークモデルの一例を示している。
図5に示したニューラルネットワークモデルのコンポーネントとしてのニューラルネットワークモデルの一例を示している。
図3に示したニューラルモデルのコンポーネントとしてのニューラルネットワークモデルの一例を示している。
ここで説明される一部の実施形態に従ったオーディオ管理サーバコンピュータで実行されるプロセスの一例を示している。
本発明の一実施形態が実装され得るコンピュータシステムを示すブロック図である。
【発明を実施するための形態】
【0007】
以下の説明では、説明の目的で、本発明の実施形態例の完全なる理解を提供するために数多くの具体的詳細が説明される。しかし、明らかなことには、実施形態例はそれらの具体的詳細を用いずに実施されてもよい。また、実施形態例をいたずらに不明瞭にしないために、周知の構造や装置はブロック図の形態で示す。
【0008】
実施形態を、以下の概要に従って下のセクションで説明する:
1. 全体概説
2. コンピューティング環境例
3. コンピュータコンポーネント例
4. 機能説明
4.1. ニューラルネットワークモデル
4.1.1. 特徴抽出ブロック
4.1.2. U-NETブロック
4.1.2.1. 密ブロック
4.1.2.1.1. ゲーティングを用いた深さ方向に分離可能な畳み込み
4.1.2.2. 残差ブロック及びリカレント層
4.2. モデルトレーニング
4.3. モデル実行
5. プロセス例
6. ハードウェア実装
**
【0009】
1. 全体概説
雑音を抑制して音声を強調するためのシステム及び関連する方法が開示される。一部の実施形態において、当該システムは、元の雑音ある波形に対応するバンド分け(バンディング)されたエネルギーを取得し、各フレームにおける各バンドに存在する音声の量を示す音声値を生成するニューラルネットワークモデルをトレーニングする。これらの音声値を用いて、音声が存在しそうにない周波数バンドにおける周波数の大きさを減らすことによって雑音を抑制することができる。このニューラルネットワークモデルは、低レイテンシを有し、リアルタイム雑音抑制のために使用されることができる。ニューラルモデルは、いくらかのルックアヘッド(先読み)を実施する特徴抽出ブロックを有する。特徴抽出ブロックの後に、収縮パスを形成する周波数ドメインに沿った定常ダウンサンプリングを有するエンコーダが続く。収縮パスに沿った畳み込みが、時間次元に沿って次第に大きくなるダイレーション係数で実行される。エンコーダの後に、膨張パスを形成する周波数ドメインに沿った定常アップサンプリングを有した対応するデコーダが続く。デコーダは、対応するレベルでエンコーダからスケーリングされた出力特徴マップを受信し、それ故に、各フレームにおける各周波数バンドにどれだけの音声が存在するかを決定する際に、周波数次元に沿って異なる受容野から抽出された特徴を全て考慮することができる。
【0010】
一部の実施形態において、実行時に、当該システムは、雑音ある波形を取得し、それを、各フレームにおいて複数の知覚的に刺激する(motivating)周波数バンドをカバーする周波数ドメインに変換する。当該システムは、次いで、モデルを実行して、各フレームにおける各周波数バンドについての音声値を得る。その後、当該システムは、音声値を周波数ドメインの元データに適用し、それを、強調された雑音抑制波形に変換し戻す。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
木管楽器
8日前
本田技研工業株式会社
車室環境制御装置
12日前
日本軽金属株式会社
遮音壁
6日前
カシオ計算機株式会社
発音装置、発音方法及びプログラム
1日前
トヨタ自動車株式会社
判定装置
1日前
株式会社第一興商
カラオケ装置
12日前
株式会社第一興商
カラオケ装置
6日前
シャープ株式会社
電子機器および電子機器の制御方法
6日前
日本電気株式会社
放送用システムおよび字幕作成方法
8日前
ブラザー工業株式会社
カラオケ装置及びカラオケプログラム
6日前
カシオ計算機株式会社
電子鍵盤楽器
12日前
大建工業株式会社
吸音体及び音環境調整構造
1日前
株式会社JVCケンウッド
収音装置、収音方法、およびプログラム
1日前
ブラザー工業株式会社
音声録音装置、及び、音声録音用プログラム
5日前
ブラザー工業株式会社
カラオケ用プログラム、及び、カラオケ装置
5日前
カシオ計算機株式会社
電子楽器、電子楽器の制御方法及びプログラム
12日前
トヨタ自動車株式会社
運転者認知機能改善システム
12日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
7日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
7日前
株式会社NTTドコモ
情報処理装置及び情報処理方法
6日前
株式会社リコー
対話装置、対話システム、対話方法及びプログラム
5日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御装置
7日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御方法
7日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御方法
7日前
大阪瓦斯株式会社
音声情報出力システムおよび音声情報出力装置
6日前
本田技研工業株式会社
能動型振動騒音制御装置
5日前
本田技研工業株式会社
能動型振動騒音制御装置
5日前
本田技研工業株式会社
能動型振動騒音低減装置
6日前
株式会社プレシジョン
プログラム、情報処理装置及び方法
12日前
本田技研工業株式会社
能動型振動騒音低減装置
6日前
株式会社クラウン・パッケージ
音発生具及び音発生具を形成するブランクシート
5日前
カシオ計算機株式会社
情報処理装置、方法およびプログラム
1日前
カシオ計算機株式会社
情報処理装置、方法およびプログラム
12日前
株式会社淺沼組
音響システムおよび音響システム付き建築物
5日前
パナソニックオートモーティブシステムズ株式会社
車載情報再生装置および情報再生方法
12日前
カシオ計算機株式会社
情報処理装置、演奏装置、方法およびプログラム
今日
続きを見る
他の特許を見る