TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024159416
公報種別公開特許公報(A)
公開日2024-11-08
出願番号2023171693
出願日2023-10-02
発明の名称深層学習ネットワークのための最適化方法及び演算システム
出願人緯創資通股ふん有限公司,WISTRON CORPORATION
代理人個人
主分類G06N 3/0495 20230101AFI20241031BHJP(計算;計数)
要約【課題】深層学習ネットワークのために用いられる最適化方法及び演算システムを提供する。
【解決手段】深層学習ネットワークのための最適化方法であって、第1データを取得し、第1データを2のべき乗量子化を通じて量子化する。2のべき乗量子化後の第1データは、第1フォーマット又は第2フォーマットであり、第1フォーマット又は第2フォーマット中の第1の値の数は異なる。方法はまた、第2データを取得し、第2データを動的固定点量子化を通じて量子化し、2のべき乗量子化後の量子化された第1データ及び動的固定点量子化後の量子化された第2データに、深層学習ネットワークに関する演算を実行し、予測精度を高め、モデルの複雑さを低減させる。
【選択図】図2
特許請求の範囲【請求項1】
第1データを取得することと、
前記第1データを2のべき乗量子化を通じて第1フォーマット又は第2フォーマットに量子化することであって、前記第1フォーマット又は前記第2フォーマット中の第1の値の数は異なることと、
前記第1フォーマット又は前記第2フォーマットを目標フォーマットとして用いることと、
前記目標フォーマットに基づいて量子化された前記第1データを用いることにより、深層学習ネットワークに関する演算を実行することと
を含む、
深層学習ネットワークのための最適化方法。
続きを表示(約 1,800 文字)【請求項2】
前記第1フォーマット又は前記第2フォーマットを前記目標フォーマットとして用いることは、
量子化誤差に基づいて前記第1フォーマット及び前記第2フォーマットのうちの1つを前記目標フォーマットとして決定することであって、前記量子化誤差は前記2のべき乗量子化により前記第1フォーマット又は前記第2フォーマットに量子化された前記第1データと、前記2のべき乗量子化により量子化されていない前記第1データとの間の誤差であること
を含む、
又は、
前記第1データは、前記深層学習ネットワークに基づく事前訓練モデル中の複数の層のうちの1つに属し、前記第1データを前記2のべき乗量子化を通じて前記第1フォーマット又は前記第2フォーマットに量子化することは、
前記層のスケーリング係数を決定することと、
前記スケーリング係数に基づいて前記層の量子化値の上限及び前記量子化値の下限を決定することと、
前記量子化値の前記上限及び前記量子化値の前記下限に基づいて前記層のための前記2のべき乗量子化におけるデータセットを決定することであって、前記データセットは前記第1フォーマット及び前記第2フォーマット中の量子化値を定義するために用いられることと
を含む、
請求項1に記載の深層学習ネットワークのための最適化方法。
【請求項3】
前記第1フォーマットはワンホットエンコーディングであり、前記第2フォーマットはツーホットエンコーディングであり、前記第1データは前記深層学習ネットワークに基づく事前訓練モデルの重みであり、前記演算は乗算演算であり、前記目標フォーマットは前記ワンホットエンコーディングであり、前記目標フォーマットに基づいて量子化された前記第1データを用いて前記深層学習ネットワークに関する前記演算を実行することは、
前記目標フォーマット中の前記第1の値の1つの位置に基づいて、シフターを介して第2データをシフトすることであって、前記第2データは前記深層学習ネットワークにおいて前記第1データで前記演算を実行するためのパラメータであること
を含む、
又は、
前記演算は乗算演算であり、前記目標フォーマットはツーホットエンコーディングであり、前記目標フォーマットに基づいて量子化された前記第1データを用いて前記深層学習ネットワークに関する前記演算を実行することは、
前記目標フォーマット中の前記第1の値の2つの位置に基づいて、前記シフターを介して前記第2データをシフトすることと、
加算器を介して、シフトされた前記第2データを加算することと
を含む、
請求項1に記載の深層学習ネットワークのための最適化方法。
【請求項4】
第1データを取得することと、
前記第1データを2のべき乗量子化を通じて量子化することであって、前記2のべき乗量子化を通じて量子化された前記第1データは第1フォーマット又は第2フォーマットであり、前記第1フォーマット又は前記第2フォーマット中の第1の値の数は異なることと、
第2データを取得することと、
前記第2データを動的固定点量子化を通じて量子化することと、
前記2のべき乗量子化後の量子化された前記第1データ、及び前記動的固定点量子化後の量子化された前記第2データに、深層学習ネットワークに関する演算を実行することと
を含む、
深層学習ネットワークのための最適化方法。
【請求項5】
プログラムコードを格納するよう構成されたメモリと、
前記メモリに結合され、
第1データを取得することと、
前記第1データを2のべき乗量子化を通じて第1フォーマット又は第2フォーマットに量子化することであって、前記第1フォーマット又は前記第2フォーマット中の第1の値の数は異なることと、
前記第1フォーマット又は前記第2フォーマットを目標フォーマットとして用いることと、
前記目標フォーマットに基づいて量子化された前記第1データを用いることにより、深層学習ネットワークに関する演算を実行することと
を実行するため、前記プログラムコードをロードするよう構成されたプロセッサと
を含む、
深層学習ネットワークのための演算システム。

発明の詳細な説明【技術分野】
【0001】
本発明は機械学習技術に関するものであり、特に深層学習ネットワークのための最適化方法及び演算システムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
近年、人工知能(Artificial Intelligence、AI)技術の継続的な発展に伴い、ニューラルネットワークのパラメータ量及び演算の複雑さも増加している。その結果、深層学習ネットワークのための圧縮技術が大きく進展している。量子化はモデルを圧縮するための重要な技術であることに注意されたい。しかし、既存の量子化されたモデルの予測精度及び圧縮率にはまだ発展の余地がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上記を鑑み、本発明の1つの実施形態は、ハイブリッド式の効果的なコーディングと量子化を用いることにより、予測精度を高めて一定の圧縮率を維持することのできる、深層学習ネットワークのための最適化方法及び演算システムを提供する。
【課題を解決するための手段】
【0004】
本発明の1つの実施形態における深層学習ネットワークのための最適化方法は、第1データを取得することと、第1データを2のべき乗量子化(Power of Two Quantization)を通じて第1フォーマット又は第2フォーマットに量子化することとであって、第1フォーマット又は第2フォーマット中の第1の値の数は異なることと、第1フォーマット又は第2フォーマットを目標フォーマットとして用いることと、目標フォーマットに基づき量子化された第1データを用いることにより、深層学習ネットワークに関する演算を実行することとを含む(が、これに限定されない)。
【0005】
本発明の1つの実施形態における深層学習ネットワークのための最適化方法は、第1データを取得することと、第1データを2のべき乗量子化を通じて量子化することであって、2のべき乗量子化を通じて量子化された第1データは第1フォーマット又は第2フォーマットであり、第1フォーマット又は第2フォーマット中の第1の値の数は異なることと、第2データを取得することと、第2データを動的固定点量子化(dynamic fixed-point quantization)を通じて量子化することと、2のべき乗量子化後の量子化された第1データ及び動的固定点量子化後の量子化された第2データに、深層学習ネットワークに関する演算を実行することとを含む(が、これに限定されない)。
【0006】
本発明の1つの実施形態における深層学習ネットワークのための演算システムは、メモリとプロセッサとを含む。メモリは、プログラムコードを格納するよう構成される。プロセッサはメモリに結合される。プロセッサは、第1データを取得することと、第1データを2のべき乗量子化を通じて第1フォーマット又は第2フォーマットに量子化することであって、第1フォーマット又は第2フォーマット中の第1の値の数は異なることと、第1フォーマット又は第2フォーマットを目標フォーマットとして用いることと、目標フォーマットに基づき量子化された第1データを用いることにより、深層学習ネットワークに関する演算を実行することというステップを実行するため、プログラムコードをロードするよう構成される。
【発明の効果】
【0007】
上記に基づき、本発明の実施形態による深層学習ネットワークのための最適化方法及び演算システムによると、2つのデータを2のべき乗量子化及び動的固定点量子化を通じて特定のフォーマットに量子化する。このようにして、予測精度を高めることができ、モデルの複雑さを低減させることができる。
【0008】
本発明の上記特徴及び利点をより理解しやすくするため、以下に特定の実施形態を添付図面と併せて詳細に説明する。
【図面の簡単な説明】
【0009】
本発明の1つの実施形態による演算システムのコンポーネントのブロック図である。
本発明の1つの実施形態による深層学習ネットワークのための最適化方法のフロー図である。
本発明の1つの実施形態による量子化比較の概略図である。
本発明の1つの実施形態による層毎(layer-by-layer)の量子化幅の概略図である。
本発明の1つの実施形態による2のべき乗量子化のフロー図である。
本発明の1つの実施形態による2のべき乗量子化の量子化レベルの概略図である。
2のべき乗量子化を表す例である。
本発明の1つの実施形態による深層学習ネットワークのための最適化方法のフロー図である。
動的固定点量子化を表す例である。
動的固定点量子化を表すもう1つの例である。
ツーホットエンコーディング(two-hot encoding)の積和(Multiply-Accumulate、MAC)演算を表す例である。
ツーホットエンコーディングのMAC演算を表す例である。
本発明の1つの実施形態による応用シナリオのフロー図である。
本発明の1つの実施形態によるモデル最適化のフロー図である。
【発明を実施するための形態】
【0010】
図1は、本発明の1つの実施形態による演算システム10のコンポーネントのブロック図である。図1を参照し、演算システム10は、メモリ11とプロセッサ12とを含む(が、これに限定されない)。演算システム10は、1つ以上のデスクトップコンピュータ、ノートブックコンピュータ、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス、サーバ、又は他の電子デバイスであってよい。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許