特許ウォッチ

公開番号2025085702
公報種別公開特許公報(A)
公開日2025-06-05
出願番号2025039836,2024033809
出願日2025-03-13,2011-04-06
発明の名称デコーダシステム、デコーディング方法及びコンピュータプログラム
出願人ドルビー・インターナショナル・アーベー
代理人弁理士法人ITOH
主分類G10L 19/008 20130101AFI20250529BHJP(楽器;音響)
要約【課題】高ビットレートレンジにおいても計算効率の高いステレオ符号化をする方法と装置を提供する。
【解決手段】
本発明は、周波数領域における複素予測を用いたステレオ符号化及び復号の方法及び装置を提供する。一実施形態において、複素予測符号化によりエンコードされた、2つの入力チャンネルを表す第1の周波数領域表示を有する入力ステレオ信号から出力ステレオ信号を求める復号方法は、(i)第1の入力チャンネルの第2の周波数領域表示を計算するアップミキシングステップと、(ii)前記第1の入力チャンネルの第1と第2の周波数領域表示と、前記第2の入力チャンネルの第1の周波数領域表示と、複素予測係数とに基づいて、出力チャンネルを計算するアップミキシングステップとを有する。アップミキシングは制御データに応じて中断できる。
【選択図】図2
特許請求の範囲【請求項１】
左チャネルと右チャネルとを有するステレオオーディオ信号を出力する装置であって、当該装置は、
オーディオビットストリームを受信し、前記オーディオビットストリームから少なくとも１つの予測係数をデコードするデマルチプレクサであって、前記オーディオビットストリームはフレームにセグメント化されており、前記少なくとも１つの予測係数の値は各フレームについて変化しうる、デマルチプレクサと、
前記オーディオビットストリームからダウンミックス信号と残差信号とを生成するように構成されたデコーダと、
予測モードまたは非予測モードで動作し、前記左チャネルと前記右チャネルとを前記ステレオオーディオ信号として出力するように構成されるアップミキサーとを有し、
前記アップミキサーが前記予測モードで動作するとき、前記残差信号はサイド信号と前記サイド信号を予測したものとの差分を表し、前記アップミキサーは前記ダウンミックス信号と、前記残差信号と、前記少なくとも１つの予測係数との組み合わせから、前記左チャネルと前記右チャネルとを生成し、
前記アップミキサーが前記非予測モードで動作するとき、前記残差信号は前記サイド信号を表し、前記アップミキサーは、前記ダウンミックス信号と前記残差信号との和に基づき前記左チャネルを生成し、前記ダウンミックス信号と前記残差信号との差に基づいて前記右チャネルを生成する、
装置。
続きを表示（約 820 文字）【請求項２】
前記少なくとも１つの予測係数は前記残差信号のエネルギーを低減または最小化する、
請求項１に記載の装置。
【請求項３】
前記ダウンミックス信号に関連するノイズを成形するように構成されるノイズ成形器をさらに有し、前記ノイズ成形器は前記アップミキサーの上流に配置される、
請求項１に記載の装置。
【請求項４】
前記ノイズ成形器は時間にわたり前記ノイズを成形するように構成される時間的ノイズ成形器である、
請求項３に記載の装置。
【請求項５】
前記アップミキサーは、前記予測モードで動作するとき、３つのタップを有するフィルタを用いて前記左チャネルと前記右チャネルとを生成する、
請求項１に記載の装置。
【請求項６】
前記ダウンミックス信号は、元の左チャネルと元の右チャネルとの線形結合により形成されるミッド信号を含む、
請求項１に記載の装置。
【請求項７】
前記少なくとも１つの予測係数は実数値係数である、
請求項１に記載の装置。
【請求項８】
前記少なくとも１つの予測係数は複素数値係数である、
請求項１に記載の装置。
【請求項９】
前記アップミキサーは、前記ダウンミックス信号のバージョンを前記サイド信号のバージョンに加えて前記左チャネルを生成し、前記サイド信号の前記バージョンを前記ダウンミックス信号の前記バージョンから引いて前記右チャネルを生成することにより、前記サイド信号を前記ダウンミックス信号と結合する、
請求項１に記載の装置。
【請求項１０】
前記アップミキサーは、前記予測モードで動作するとき、前記残差信号を前記サイド信号に加えるように構成される、請求項１に記載の装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
ここに開示する発明は概してステレオオーディオ符号化に関し、より詳しくは周波数領域における複素予測を用いるステレオ符号化の手法に関する。
続きを表示（約 3,400 文字）【背景技術】
【０００２】
ステレオ信号の左（Ｌ）チャンネルと右（Ｒ）チャンネルの同時符号化（joint coding）により、ＬとＲを独立に符号化するのと比較して、符号化が効率的になる。同時ステレオ符号化に対する一般的なアプローチはミッド／サイド（Ｍ／Ｓ）符号化である。ここで、ミッド（Ｍ）信号はＬ信号とＲ信号を加えることにより構成され、例えばＭ信号は
TIFF
2025085702000002.tif
9
170
により得られる。また、サイド（Ｓ）信号は２つのチャンネルＬＲを引くことにより構成され、例えばＳ信号は
TIFF
2025085702000003.tif
9
170
により得られる。Ｍ／Ｓ符号化の場合、Ｌ信号とＲ信号ではなく、Ｍ信号とＳ信号が符号化される。
【０００３】
ＭＰＥＧ（Moving Picture Experts Group）のＡＡＣ（Advanced Audio Coding）標準（標準文書ISO/IEC １３８１８-７を参照）では、時間および周波数可変で、Ｌ／Ｒステレオ符号化とＭ／Ｓステレオ符号化を選択できる。このように、ステレオエンコーダは、ステレオ信号のある周波数帯域にＬ／Ｒ符号化を適用でき、そのステレオ信号の他の周波数帯域のエンコードにはＭ／Ｓ符号化が使われる（周波数可変）。さらに、エンコーダは時間的にＬ／Ｒ符号化とＭ／Ｓ符号化を切り替えられる（時間可変）。ＭＰＥＧＡＡＣでは、ステレオエンコーディングは周波数領域で、より具体的にはＭＤＣＴ（修正離散余弦変換）領域で行われる。これにより、周波数的および時間的に可変に、Ｌ／Ｒ符号化またはＭ／Ｓ符号化のいずれかを適応的に選択できる。
【０００４】
パラメトリックステレオ符号化は、ステレオオーディオ信号を、モノラル信号と、ステレオパラメータとなる少量のサイド情報として、効率的に符号化する手法である。これはＭＰＥＧ－４オーディオ標準（標準文書ISO/IEC１４４９６-３を参照）の一部である。モノラル信号はどのオーディオ符号化器を用いてもエンコードできる。ステレオパラメータはモノビットストリーム（mono bit stream）の付属部分に組み込まれるので、完全に前方互換かつ後方互換となる。デコーダでは、モノラル信号が最初に復号され、その後にステレオパラメータを用いてステレオ信号が再構成される。復号されたモノ信号を無相関化した信号（decorrelated version）は、モノ信号との相互相関がゼロである。この無相関化信号を、無相関化器（decorrelator）により、例えば遅延ラインを含む適当なオールパスフィルタ（all-pass filter）により生成する。基本的に、無相関化信号はモノ信号と同じスペクトル的・時間的エネルギー分布を有する。モノラル信号は無相関化信号とともにアップミックスプロセスに入力される。このプロセスは、ステレオパラメータにより制御され、ステレオ信号を再構成する。さらに詳しい情報は、非特許文献１を参照されたい。
【０００５】
ＭＰＥＧサラウンド（ＭＰＳ；ISO/IEC ２３００３-１及び非特許文献２を参照）は、パラメトリックステレオ符号化の原理に残差符号化の原理を組み合わせるものであり、無相関化信号を送信される残差で置き換え、知覚できる音質を改善している。残差符号化は、マルチチャンネル信号をダウンミックスし、任意的に空間的キューを抽出することにより行われる。ダウンミックスプロセスにおいて、エラー信号を表す残差信号が計算され、エンコードされて送信される。残差信号はデコーダにおいて無相関化信号の代わりになる。ハイブリッドアプローチでは、残差信号は一定の周波数帯域において、好ましくは比較的低い帯域において、無相関化信号に取って代わる。
【０００６】
現在のMPEG Unified Speech and Audio Coding（ＵＳＡＣ）システムは、図１に２つの例を示したが、デコーダはコアデコーダの下流に位置する複素値直交ミラーフィルタ（ＱＭＦ）バンクを有する。このフィルタバンクの出力として得られるＱＭＦ表現は、複素値であり、それゆえ２倍にオーバーサンプルされており、ダウンミックス信号（すなわちミッド信号）Ｍと残差信号Ｄとして構成できる。これには複素値成分を有するアップミックス行列を使うことができる。（ＱＭＦ領域の）Ｌ信号とＲ信号は
TIFF
2025085702000004.tif
13
170
として得られる。ここで、ｇは実数値のゲインファクタであり、αは複素値の予測係数である。αは残差信号Ｄのエネルギーが最小になるように選択するのが好ましい。ゲインファクタは規格化により、すなわち和信号のパワーが左右信号のパワーの和と等しくなるようにして決定できる。Ｌ信号とＲ信号それぞれの実部と虚部は互いに冗長性があり、原理的には一方を他方に基づき計算できる。しかし、後で可聴なエイリアシングアーティファクトを生ぜずにスペクトル帯域レプリケーション（ＳＢＲ）デコーダを使えるという利益がある。モノ・ステレオアップミックスなどその他の時間または周波数適応的信号処理（図示せず）と関連するアーティファクトを防止する目的で、オーバーサンプルされた信号表現の利用も同様の理由で選択される。逆ＱＭＦフィルタリングがデコーダにおける最後の処理ステップである。信号の帯域制限的ＱＭＦ表現により、帯域制限残差手法と「残差フィル」手法が使える。これらの手法をこのタイプのデコーダに組み込むことができる。
【０００７】
上記の符号化構成は低ビットレートの場合、一般的には８０ｋｂ／ｓ未満の場合には良く適合するが、計算複雑性の点で高ビットレートの場合には最適なものではない。より詳しく言うと、高ビットレートでは、一般的にＳＢＲツールは（符号化効率の改善にならないので）使われない次に、ＳＢＲ段階を有さないデコーダでは、複素値アップミックス行列があるが故にＱＭＦフィルタバンクを使うが、これは計算量が多く遅延を生じる（１０２４サンプルのフレーム長では、ＱＭＦ分析／合成フィルタバンクにより９６１サンプルの遅延が生じる）。これは、もっと効率的な符号化構成の必要性を明らかに示している。
【先行技術文献】
【非特許文献】
【０００８】
H. Purnhagen著「Low Complexity Parametric Stereo Coding in MPEG-４」, Proc. of the ７th Int. Conference on Digital Audio Effects (DAFx'０４), Naples, Italy, October ５-８, ２００４, pages １６３-１６８
J. Herre et al.著「MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi- Channel Audio Coding」, Audio Engineering Convention Paper ７０８４, １２２<nd> Convention, May ５-８, ２００７
【発明の概要】
【課題を解決するための手段】
【０００９】
本発明の一目的は、高ビットレートレンジにおいても計算効率の高いステレオ符号化をする方法と装置を提供することである。
【００１０】
本発明は、独立請求項に規定した、符号化及び復号をするための、それぞれコーダ及びデコーダ、コーディング及びデコーディング方法、及びコンピュータプログラム製品を提供することにより、この目的を達成する。従属項は本発明の実施形態を規定している。
（【００１１】以降は省略されています）

関連特許