発明の詳細な説明【技術分野】 【0001】 本開示は、ニューラルネットワークを利用する映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法に関する。 続きを表示(約 1,600 文字)【背景技術】 【0002】 ニューラルネットワークの一つである自己符号化器(Auto-encoder)、量子化、および、エントロピー符号化を組合せた新たな映像符号化技術が、非特許文献1に記載されている。 【0003】 自己符号化器は、入力データを、重要な特徴だけを含むように、低次元の特徴テンソルに圧縮する。その後、自己符号化器は、低次元の特徴テンソルを元の次元に再構築した再構築データを生成する。低次元の特徴テンソルに落とし込む処理(前半部分)をエンコードと呼ぶ。再構築データを生成する処理(後半部分)をデコードと呼ぶ。 【0004】 自己符号化器の学習は、再構築誤差(入力データと再構築データとの差)を最小化するように進められる。有意義な特徴量が得られるように、自己符号化器は、エンコードの構造に制約を加えたり、ネットワークの損失関数に正則化項を追加するように設計される。 【0005】 非特許文献2には、所定のテンソルを入力し、確率モデル(すなわち、予測の確率分布)を使用して入力テンソルをエントロピー符号化する手法が記載されている。この手法では、まず、入力テンソルをダウンサンプリングすることにより、入力テンソルのスケールよりも小さいスケールのテンソルを獲得する。獲得したテンソルから確率分布を推定し、そのテンソルをエントロピー符号化する。その後、その推定した確率分布を用いて入力テンソルをエントロピー符号化する。そのような手法を、MSPSM(Multi-Scale Progressive Statistical Model)エントロピー符号化と呼ぶ。MSPSMエントロピー符号化を、単に、MSPSMと表記する。 【0006】 以下、所定のテンソルとして、自己符号化器におけるエンコーダが出力するテンソルに量子化を適用することにより得られる特徴テンソルを例にする。 【先行技術文献】 【非特許文献】 【0007】 J. Ball’e, V. Laparra, and E. P. Simoncelli, "End-to-end Optimized Image Compression", published as a conference paper at ICLR 2017 N. Le et al., "Learned Image Coding for Machines: A Content-Adaptive Approach", IEEE International Conference on Multimedia and Expo (ICME), 2021 【発明の概要】 【発明が解決しようとする課題】 【0008】 図1は、MSPSMの実現例を示すブロック図である。図1に示す構成を、MSPSMシステムとする。 【0009】 MSPSMシステムは、エンコーダからの入力特徴テンソルをダウンサンプリングする。MSPSMシステムは、ダウンサンプリングで得られる特徴テンソルを、さらにダウンサンプリングする。MSPSMシステムは、ダウンサンプリングで得られる特徴テンソルのダウンサンプリングを繰り返す。i回目のダウンサンプリングで得られる特徴テンソルを、スケールiの特徴テンソルという。iを、スケール数という。 【0010】 スケールiの特徴テンソルを、y i と表現することがある。スケールiの特徴テンソルから推定された確率分布をp i と表現し、p i を推定した際のコンテキスト情報をz i と表現する。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する