特許ウォッチ

公開番号2024159416
公報種別公開特許公報(A)
公開日2024-11-08
出願番号2023171693
出願日2023-10-02
発明の名称深層学習ネットワークのための最適化方法及び演算システム
出願人緯創資通股ふん有限公司,WISTRON CORPORATION
代理人個人
主分類G06N 3/0495 20230101AFI20241031BHJP(計算;計数)
要約【課題】深層学習ネットワークのために用いられる最適化方法及び演算システムを提供する。
【解決手段】深層学習ネットワークのための最適化方法であって、第1データを取得し、第1データを2のべき乗量子化を通じて量子化する。2のべき乗量子化後の第1データは、第1フォーマット又は第2フォーマットであり、第1フォーマット又は第2フォーマット中の第1の値の数は異なる。方法はまた、第2データを取得し、第2データを動的固定点量子化を通じて量子化し、2のべき乗量子化後の量子化された第1データ及び動的固定点量子化後の量子化された第2データに、深層学習ネットワークに関する演算を実行し、予測精度を高め、モデルの複雑さを低減させる。
【選択図】図2
特許請求の範囲【請求項１】
第１データを取得することと、
前記第１データを２のべき乗量子化を通じて第１フォーマット又は第２フォーマットに量子化することであって、前記第１フォーマット又は前記第２フォーマット中の第１の値の数は異なることと、
前記第１フォーマット又は前記第２フォーマットを目標フォーマットとして用いることと、
前記目標フォーマットに基づいて量子化された前記第１データを用いることにより、深層学習ネットワークに関する演算を実行することと
を含む、
深層学習ネットワークのための最適化方法。
続きを表示（約 1,800 文字）【請求項２】
前記第１フォーマット又は前記第２フォーマットを前記目標フォーマットとして用いることは、
量子化誤差に基づいて前記第１フォーマット及び前記第２フォーマットのうちの１つを前記目標フォーマットとして決定することであって、前記量子化誤差は前記２のべき乗量子化により前記第１フォーマット又は前記第２フォーマットに量子化された前記第１データと、前記２のべき乗量子化により量子化されていない前記第１データとの間の誤差であること
を含む、
又は、
前記第１データは、前記深層学習ネットワークに基づく事前訓練モデル中の複数の層のうちの１つに属し、前記第１データを前記２のべき乗量子化を通じて前記第１フォーマット又は前記第２フォーマットに量子化することは、
前記層のスケーリング係数を決定することと、
前記スケーリング係数に基づいて前記層の量子化値の上限及び前記量子化値の下限を決定することと、
前記量子化値の前記上限及び前記量子化値の前記下限に基づいて前記層のための前記２のべき乗量子化におけるデータセットを決定することであって、前記データセットは前記第１フォーマット及び前記第２フォーマット中の量子化値を定義するために用いられることと
を含む、
請求項１に記載の深層学習ネットワークのための最適化方法。
【請求項３】
前記第１フォーマットはワンホットエンコーディングであり、前記第２フォーマットはツーホットエンコーディングであり、前記第１データは前記深層学習ネットワークに基づく事前訓練モデルの重みであり、前記演算は乗算演算であり、前記目標フォーマットは前記ワンホットエンコーディングであり、前記目標フォーマットに基づいて量子化された前記第１データを用いて前記深層学習ネットワークに関する前記演算を実行することは、
前記目標フォーマット中の前記第１の値の１つの位置に基づいて、シフターを介して第２データをシフトすることであって、前記第２データは前記深層学習ネットワークにおいて前記第１データで前記演算を実行するためのパラメータであること
を含む、
又は、
前記演算は乗算演算であり、前記目標フォーマットはツーホットエンコーディングであり、前記目標フォーマットに基づいて量子化された前記第１データを用いて前記深層学習ネットワークに関する前記演算を実行することは、
前記目標フォーマット中の前記第１の値の２つの位置に基づいて、前記シフターを介して前記第２データをシフトすることと、
加算器を介して、シフトされた前記第２データを加算することと
を含む、
請求項１に記載の深層学習ネットワークのための最適化方法。
【請求項４】
第１データを取得することと、
前記第１データを２のべき乗量子化を通じて量子化することであって、前記２のべき乗量子化を通じて量子化された前記第１データは第１フォーマット又は第２フォーマットであり、前記第１フォーマット又は前記第２フォーマット中の第１の値の数は異なることと、
第２データを取得することと、
前記第２データを動的固定点量子化を通じて量子化することと、
前記２のべき乗量子化後の量子化された前記第１データ、及び前記動的固定点量子化後の量子化された前記第２データに、深層学習ネットワークに関する演算を実行することと
を含む、
深層学習ネットワークのための最適化方法。
【請求項５】
プログラムコードを格納するよう構成されたメモリと、
前記メモリに結合され、
第１データを取得することと、
前記第１データを２のべき乗量子化を通じて第１フォーマット又は第２フォーマットに量子化することであって、前記第１フォーマット又は前記第２フォーマット中の第１の値の数は異なることと、
前記第１フォーマット又は前記第２フォーマットを目標フォーマットとして用いることと、
前記目標フォーマットに基づいて量子化された前記第１データを用いることにより、深層学習ネットワークに関する演算を実行することと
を実行するため、前記プログラムコードをロードするよう構成されたプロセッサと
を含む、
深層学習ネットワークのための演算システム。

発明の詳細な説明【技術分野】
【０００１】
本発明は機械学習技術に関するものであり、特に深層学習ネットワークのための最適化方法及び演算システムに関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
近年、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）技術の継続的な発展に伴い、ニューラルネットワークのパラメータ量及び演算の複雑さも増加している。その結果、深層学習ネットワークのための圧縮技術が大きく進展している。量子化はモデルを圧縮するための重要な技術であることに注意されたい。しかし、既存の量子化されたモデルの予測精度及び圧縮率にはまだ発展の余地がある。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
上記を鑑み、本発明の１つの実施形態は、ハイブリッド式の効果的なコーディングと量子化を用いることにより、予測精度を高めて一定の圧縮率を維持することのできる、深層学習ネットワークのための最適化方法及び演算システムを提供する。
【課題を解決するための手段】
【０００４】
本発明の１つの実施形態における深層学習ネットワークのための最適化方法は、第１データを取得することと、第１データを２のべき乗量子化（ＰｏｗｅｒｏｆＴｗｏＱｕａｎｔｉｚａｔｉｏｎ）を通じて第１フォーマット又は第２フォーマットに量子化することとであって、第１フォーマット又は第２フォーマット中の第１の値の数は異なることと、第１フォーマット又は第２フォーマットを目標フォーマットとして用いることと、目標フォーマットに基づき量子化された第１データを用いることにより、深層学習ネットワークに関する演算を実行することとを含む（が、これに限定されない）。
【０００５】
本発明の１つの実施形態における深層学習ネットワークのための最適化方法は、第１データを取得することと、第１データを２のべき乗量子化を通じて量子化することであって、２のべき乗量子化を通じて量子化された第１データは第１フォーマット又は第２フォーマットであり、第１フォーマット又は第２フォーマット中の第１の値の数は異なることと、第２データを取得することと、第２データを動的固定点量子化（ｄｙｎａｍｉｃｆｉｘｅｄ－ｐｏｉｎｔｑｕａｎｔｉｚａｔｉｏｎ）を通じて量子化することと、２のべき乗量子化後の量子化された第１データ及び動的固定点量子化後の量子化された第２データに、深層学習ネットワークに関する演算を実行することとを含む（が、これに限定されない）。
【０００６】
本発明の１つの実施形態における深層学習ネットワークのための演算システムは、メモリとプロセッサとを含む。メモリは、プログラムコードを格納するよう構成される。プロセッサはメモリに結合される。プロセッサは、第１データを取得することと、第１データを２のべき乗量子化を通じて第１フォーマット又は第２フォーマットに量子化することであって、第１フォーマット又は第２フォーマット中の第１の値の数は異なることと、第１フォーマット又は第２フォーマットを目標フォーマットとして用いることと、目標フォーマットに基づき量子化された第１データを用いることにより、深層学習ネットワークに関する演算を実行することというステップを実行するため、プログラムコードをロードするよう構成される。
【発明の効果】
【０００７】
上記に基づき、本発明の実施形態による深層学習ネットワークのための最適化方法及び演算システムによると、２つのデータを２のべき乗量子化及び動的固定点量子化を通じて特定のフォーマットに量子化する。このようにして、予測精度を高めることができ、モデルの複雑さを低減させることができる。
【０００８】
本発明の上記特徴及び利点をより理解しやすくするため、以下に特定の実施形態を添付図面と併せて詳細に説明する。
【図面の簡単な説明】
【０００９】
本発明の１つの実施形態による演算システムのコンポーネントのブロック図である。
本発明の１つの実施形態による深層学習ネットワークのための最適化方法のフロー図である。
本発明の１つの実施形態による量子化比較の概略図である。
本発明の１つの実施形態による層毎（ｌａｙｅｒ－ｂｙ－ｌａｙｅｒ）の量子化幅の概略図である。
本発明の１つの実施形態による２のべき乗量子化のフロー図である。
本発明の１つの実施形態による２のべき乗量子化の量子化レベルの概略図である。
２のべき乗量子化を表す例である。
本発明の１つの実施形態による深層学習ネットワークのための最適化方法のフロー図である。
動的固定点量子化を表す例である。
動的固定点量子化を表すもう１つの例である。
ツーホットエンコーディング（ｔｗｏ－ｈｏｔｅｎｃｏｄｉｎｇ）の積和（Ｍｕｌｔｉｐｌｙ－Ａｃｃｕｍｕｌａｔｅ、ＭＡＣ）演算を表す例である。
ツーホットエンコーディングのＭＡＣ演算を表す例である。
本発明の１つの実施形態による応用シナリオのフロー図である。
本発明の１つの実施形態によるモデル最適化のフロー図である。
【発明を実施するための形態】
【００１０】
図１は、本発明の１つの実施形態による演算システム１０のコンポーネントのブロック図である。図１を参照し、演算システム１０は、メモリ１１とプロセッサ１２とを含む（が、これに限定されない）。演算システム１０は、１つ以上のデスクトップコンピュータ、ノートブックコンピュータ、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス、サーバ、又は他の電子デバイスであってよい。
（【００１１】以降は省略されています）

関連特許