TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025157315
公報種別
公開特許公報(A)
公開日
2025-10-15
出願番号
2025114818,2022524623
出願日
2025-07-08,2020-10-28
発明の名称
没入的音声およびオーディオ・サービスにおけるビットレート配分
出願人
ドルビー ラボラトリーズ ライセンシング コーポレイション
代理人
弁理士法人ITOH
主分類
G10L
19/008 20130101AFI20251007BHJP(楽器;音響)
要約
【課題】没入的音声及びオーディオ・サービス(IVAS)におけるビットレート配分を改善する。
【解決手段】IVASビットストリームをエンコードする方法は、入力オーディオ信号を受領するステップと、入力オーディオ信号のチャネルについての空間メタデータを計算するステップ、ダウンミックス・チャネルについての一つまたは複数のビットレートの組み合わせを決定するステップ、ビットレート配分プロセスを用いてメタデータ量子化レベルを決定するステップ、メタデータ量子化レベルを用いて空間メタデータを量子化及び符号化するステップ、一つまたは複数のビットレートの組み合わせを用いて、ダウンミックス・チャネルのためのダウンミックス・ビットストリームを生成するステップ並びにダウンミックス・ビットストリーム、量子化され符号化された空間メタデータ及び量子化レベルのセットをIVASビットストリームに組み合わせるステップを含む。
【選択図】図7
特許請求の範囲
【請求項1】
没入的音声およびオーディオ・サービス(IVAS)ビットストリームをエンコードする方法であって、当該方法は:
一つまたは複数のプロセッサを使用して、入力オーディオ信号を受領するステップと;
前記一つまたは複数のプロセッサを使用して、前記入力オーディオ信号の特性を抽出するステップと;
前記一つまたは複数のプロセッサを使用して、前記入力オーディオ信号のチャネルについての空間メタデータを計算するステップと;
前記一つまたは複数のプロセッサを使用して、ビットレート配分制御テーブルから、前記ダウンミックス・チャネルのための一つまたは複数のビットレートのセットおよび前記空間メタデータのためのメタデータ量子化レベルのセットを得るステップと;
前記一つまたは複数のプロセッサを使用して、前記ダウンミックス・チャネルのための前記一つまたは複数のビットレートの組み合わせを決定するステップと;
前記一つまたは複数のプロセッサを使用して、ビットレート配分プロセスを使用して、メタデータ量子化レベルの前記セットからメタデータ量子化レベルを決定するステップと;
前記一つまたは複数のプロセッサを使用して、前記メタデータ量子化レベルを使用して、前記空間メタデータを量子化および符号化するステップと;
前記一つまたは複数のプロセッサおよび一つまたは複数のビットレートの前記組み合わせを使用して、前記一つまたは複数のビットレートを使用して前記一つまたは複数のダウンミックス・チャネルのためのダウンミックス・ビットストリームを生成するステップと;
前記一つまたは複数のプロセッサを使用して、前記ダウンミックス・ビットストリーム、前記量子化され符号化された空間メタデータ、およびメタデータ量子化レベル情報を前記IVASビットストリームに組み合わせるステップとを含む、
方法。
続きを表示(約 1,700 文字)
【請求項2】
前記入力オーディオ信号の前記特性は、帯域幅、発話/音楽分類データおよび音声活動検出(VAD)データのうちの一つまたは複数を含む、請求項1に記載の方法。
【請求項3】
前記入力オーディオ信号は、4チャネル一次アンビソニックス(FoA)オーディオ信号、3チャネル・プレーナFoA信号、または2チャネル・ステレオ・オーディオ信号である、請求項1または2に記載の方法。
【請求項4】
前記一つまたは複数のビットレートは、モノ・オーディオ・コーダ/デコーダ(コーデック)のビットレートの一つまたは複数のインスタンスのビットレートである、請求項1または2に記載の方法。
【請求項5】
前記モノ・オーディオ・コーデックは、拡張音声サービス(EVS)コーデックであり、前記ダウンミックス・ビットストリームは、EVSビットストリームである、請求項に記載の方法。
【請求項6】
前記一つまたは複数のプロセッサを使用して、ビットレート配分制御テーブルを使用して、前記ダウンミックス・チャネルのための一つまたは複数のビットレートの前記セットおよび空間メタデータのためのメタデータ量子化レベルの前記セットを得るステップは、さらに:
前記入力オーディオ信号のフォーマット、前記入力オーディオ信号の帯域幅、許容される空間的符号化ツール、遷移モードおよびモノ・ダウンミックス後方互換モードのうちの一つまたは複数を含むテーブル・インデックスを使用して、前記ビットレート配分制御テーブルにおける行を識別するステップと;
前記ビットレート配分制御テーブルの識別された行から、目標ビットレート、ビットレート比、最小ビットレートおよびビットレート偏差きざみのうちの一つまたは複数を抽出するステップであって、前記ビットレート比は、前記入力オーディオ信号チャネルの間で全ビットレートが配分される比率を示し、前記最小ビットレートは、全ビットレートがそれを下回ることが許容されない値であり、前記ビットレート偏差きざみは、前記ダウンミックス信号についての第1の優先度が、前記空間メタデータの第2の優先度以上であるか、またはそれよりも低い場合の目標ビットレート低減きざみである、ステップとを含み、
前記ダウンミックス・チャネルについての前記一つまたは複数のビットレートの前記組み合わせと、前記空間メタデータのための前記メタデータ量子化レベルとを決定することが、前記目標ビットレート、前記ビットレート比、前記最小ビットレート、および前記ビットレート偏差きざみに基づく、
請求項1または2に記載の方法。
【請求項7】
メタデータ量子化レベルの前記セットを使用して、前記入力オーディオ信号の前記一つまたは複数のチャネルについての前記空間メタデータを量子化および符号化することは、目標メタデータ・ビットレートと実際のメタデータ・ビットレートとの間の差に基づいて、徐々に粗くしていく量子化戦略を適用する量子化ループにおいて実行される、請求項1または2に記載の方法。
【請求項8】
前記量子化は、前記入力オーディオ信号から抽出された特性およびチャネル・バンド化共分散値に基づいて、モノ・コーデック優先度および空間メタデータ優先度に従って決定される、請求項1または2に記載の方法。
【請求項9】
前記入力オーディオ信号は、ステレオ信号であり、前記ダウンミックス信号は、前記ステレオ信号からのミッド信号、残差の表現および前記空間メタデータを含む、請求項1または2に記載の方法。
【請求項10】
前記空間メタデータは、空間的再構成器(SPAR)フォーマットについては予測係数(PR)、交差予測係数(C)、および脱相関係数(P)を、複雑高度結合(CACPL)フォーマットについては予測係数(PR)または脱相関係数(P)を含む、請求項1または2に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
関連出願の相互参照
本願は、2019年10月30日に出願された米国仮特許出願第62/927,772号、および2020年10月16日に出願された米国仮特許出願第63/092,830号の優先権を主張し、これらは参照により本明細書に組み込まれる。
続きを表示(約 2,600 文字)
【0002】
技術分野
本開示は、一般に、オーディオビットストリームのエンコードおよびデコードに関する。
【背景技術】
【0003】
音声およびオーディオ・エンコーダ/デコーダ(「コーデック」)標準開発は、近年、没入的音声およびオーディオ・サービス(immersive voice and audio services、IVAS)のためのコーデックの開発に焦点を当てている。IVASは、モノラルからステレオへのアップミックスおよび完全に没入的なオーディオ・エンコード、デコードおよびレンダリングを含むが、これらに限定されない、一連のオーディオ・サービス機能をサポートすることが期待される。IVASは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実(VR)および拡張現実(AR)装置、ホームシアター装置、およびその他の適切な装置を含むが、これらに限定されない、広範囲の装置、エンドポイント、およびネットワークノードによってサポートされることが意図されている。これらの装置、エンドポイントおよびネットワークノードは、サウンド捕捉およびレンダリングのためのさまざまな音響インターフェースを有することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
没入的音声およびオーディオ・サービスにおけるビットレート配分のための実装が開示される。
【課題を解決するための手段】
【0005】
ある実施形態では、没入的音声およびオーディオ・サービス(IVAS)ビットストリームをエンコードする方法であって、当該方法は:一つまたは複数のプロセッサを使用して、入力オーディオ信号を受領するステップと;前記一つまたは複数のプロセッサを使用して、入力オーディオ信号を一つまたは複数のダウンミックス・チャネルおよび入力オーディオ信号の一つまたは複数のチャネルに関連付けられた空間メタデータにダウンミックスするステップと;前記一つまたは複数のプロセッサを使用して、ビットレート配分制御テーブルから、前記ダウンミックス・チャネルについての一つまたは複数のビットレートのセットおよび前記空間メタデータについての量子化レベルのセットを読み取るステップと;前記一つまたは複数のプロセッサを使用して、ダウンミックス・チャネルについての前記一つまたは複数のビットレートの組み合わせを決定するステップと;前記一つまたは複数のプロセッサを使用して、ビットレート配分プロセスを使用して、メタデータ量子化レベルの前記セットからメタデータ量子化レベルを決定するステップと;前記一つまたは複数のプロセッサを使用して、前記メタデータ量子化レベルを使用して、前記空間メタデータを量子化および符号化するステップと;前記一つまたは複数のプロセッサおよび一つまたは複数のビットレートの前記組み合わせを使用して、前記一つまたは複数のダウンミックス・チャネルのためのダウンミックス・ビットストリームを生成するステップと;前記一つまたは複数のプロセッサを使用して、前記ダウンミックス・ビットストリーム、前記量子化され符号化された空間メタデータ、および量子化レベルの前記セットを前記IVASビットストリームに組み合わせるステップと;IVAS対応装置での再生のために前記IVASビットストリームをストリーミングまたは記憶するステップとを含む、方法。
【0006】
ある実施形態では、前記入力オーディオ信号は、4チャネル一次アンビソニック(FoA)オーディオ信号、3チャネル・プレーナFoA信号、または2チャネル・ステレオ・オーディオ信号である。
【0007】
ある実施形態では、前記一つまたは複数のビットレートは、モノ・オーディオ・コーダ/デコーダ(コーデック)のビットレートの一つまたは複数のチャネルのビットレートである。
【0008】
ある実施形態では、モノ・オーディオ・コーデックは、拡張音声サービス(enhanced voice services、EVS)コーデックであり、ダウンミックス・ビットストリームは、EVSビットストリームである。
【0009】
ある実施形態では、前記一つまたは複数のプロセッサを使用して、ビットレート配分制御テーブルを使用して、ダウンミックス・チャネルおよび空間メタデータについての一つまたは複数のビットレートを得るステップは、さらに:前記入力オーディオ信号のフォーマット、前記入力オーディオ信号の帯域幅、許容される空間的符号化ツール、遷移モードおよびモノ・ダウンミックス後方互換モードを含むテーブル・インデックスを使用して、前記ビットレート配分制御テーブルにおける行を識別するステップと;前記ビットレート配分制御テーブルにおける識別された行から、目標ビットレート、ビットレート比、最小ビットレートおよびビットレート偏差きざみを抽出するステップであって、前記ビットレート比は、ダウンミックス・オーディオ信号チャネル間で全ビットレートが配分される比率を示し、前記最小ビットレートは、全ビットレートがそれを下回ることが許容されない値であり、前記ビットレート偏差きざみは、前記ダウンミックス信号についての第1の優先度が、前記空間メタデータの第2の優先度以上であるか、またはそれよりも低い場合の目標ビットレート低減きざみである、ステップと;ダウンミックス・チャネルおよび空間メタデータについての前記一つまたは複数のビットレートを、前記目標ビットレート、前記ビットレート比、前記最小ビットレート、および前記ビットレート偏差きざみに基づいて決定するステップとを含む。
【0010】
ある実施形態では、量子化レベルのセットを使用して、前記入力オーディオ信号の前記一つまたは複数のチャネルについての前記空間メタデータを量子化する際、目標メタデータ・ビットレートと実際のメタデータ・ビットレートとの間の差に基づいて、徐々に粗くしていく量子化戦略を適用する量子化ループにおいて量子化が実行される。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
木管楽器
8日前
株式会社豊田中央研究所
吸音構造体
16日前
本田技研工業株式会社
車室環境制御装置
12日前
株式会社東芝
吸音装置
14日前
積水樹脂株式会社
吸音シート
12日前
株式会社第一興商
カラオケ装置
6日前
トヨタ自動車株式会社
判定装置
1日前
カシオ計算機株式会社
減音器具
14日前
カシオ計算機株式会社
減音器具
14日前
株式会社第一興商
カラオケ装置
16日前
株式会社第一興商
カラオケ装置
12日前
日本軽金属株式会社
遮音壁
6日前
カシオ計算機株式会社
発音装置、発音方法及びプログラム
1日前
ブラザー工業株式会社
カラオケ装置及びカラオケプログラム
6日前
シャープ株式会社
電子機器および電子機器の制御方法
6日前
日本電気株式会社
放送用システムおよび字幕作成方法
8日前
中原大學
能動騒音除去機能を持つレンジフード
16日前
カシオ計算機株式会社
電子鍵盤楽器
12日前
株式会社JVCケンウッド
収音装置、収音方法、およびプログラム
1日前
ブラザー工業株式会社
カラオケ用プログラム、及び、カラオケ装置
5日前
株式会社JVCケンウッド
クリッピング装置及びクリッピング方法
16日前
大建工業株式会社
吸音体及び音環境調整構造
1日前
ブラザー工業株式会社
音声録音装置、及び、音声録音用プログラム
5日前
カシオ計算機株式会社
電子楽器、電子楽器の制御方法及びプログラム
12日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
7日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
7日前
トヨタ自動車株式会社
運転者認知機能改善システム
12日前
株式会社リコー
対話装置、対話システム、対話方法及びプログラム
5日前
株式会社NTTドコモ
情報処理装置及び情報処理方法
6日前
株式会社東芝
吸音装置及び音響メタマテリアル
14日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御装置
7日前
カシオ計算機株式会社
演奏装置、方法およびプログラム
13日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御方法
7日前
株式会社河合楽器製作所
鍵盤楽器の楽音制御方法
7日前
カシオ計算機株式会社
演奏装置、方法およびプログラム
14日前
カシオ計算機株式会社
制御装置、方法およびプログラム
16日前
続きを見る
他の特許を見る