TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025073072
公報種別公開特許公報(A)
公開日2025-05-12
出願番号2024155446
出願日2024-09-10
発明の名称マトリックス乗算器およびそれを含むマトリックス乗算装置の動作方法
出願人三星電子株式会社,Samsung Electronics Co.,Ltd.,ネイバー コーポレーション,NAVER Corporation
代理人弁理士法人ITOH
主分類G06F 17/16 20060101AFI20250501BHJP(計算;計数)
要約【課題】より速く少ない演算量でマトリックス乗算を行うマトリックス乗算器を提供する。
【解決手段】マトリックス乗算器100は、第1入力ベクトルと複数の量子化スケール係数に基づいて第1スケーリングされた入力ベクトルを生成する入力ベクトルスケーラ、入力ベクトルに基づいて第1固定小数点スケーリングされた入力ベクトルを生成する第1データ型変換器、入力ベクトルと第1複数の量子化符号値に基づいて第1固定小数点出力エレメントを生成する第1プロセッシングエレメント及び第1固定小数点スケーリングされた入力ベクトルと第2複数の量子化符号値に基づいて第2固定小数点出力エレメントを生成する第2プロセッシングエレメントを含むプロセッシングエレメントアレイ並びに第1/第2固定小数点出力エレメントのデータ型を変換して第1/第2出力エレメントを生成し、該エレメントを含む第1出力ベクトルを出力する第2データ型変換器を含む。
【選択図】図1
特許請求の範囲【請求項1】
第1入力ベクトルおよび複数の量子化スケール係数に基づいて第1スケーリングされた入力ベクトルを生成する入力ベクトルスケーラ;
前記第1スケーリングされた入力ベクトルに基づいて第1固定小数点スケーリングされた入力ベクトルを生成する第1データ型変換器;
前記第1固定小数点スケーリングされた入力ベクトルおよび第1複数の量子化符号値に基づいて第1固定小数点出力エレメントを生成する第1プロセッシングエレメント、および前記第1固定小数点スケーリングされた入力ベクトルおよび第2複数の量子化符号値に基づいて第2固定小数点出力エレメントを生成する第2プロセッシングエレメントを含むプロセッシングエレメントアレイ;および
前記第1固定小数点出力エレメントおよび第2固定小数点出力エレメントのデータ型をそれぞれ変換して第1出力エレメントおよび第2出力エレメントを生成し、前記第1出力エレメントおよび第2出力エレメントを含む第1出力ベクトルを出力する第2データ型変換器を含むマトリックス乗算器。
続きを表示(約 2,200 文字)【請求項2】
前記入力ベクトルスケーラは:
第2入力ベクトルおよび前記複数の量子化スケール係数に基づいて第2スケーリングされた入力ベクトルをさらに生成するように構成され、
前記第1データ型変換器は:
前記第2スケーリングされた入力ベクトルに基づいて第2固定小数点スケーリングされた入力ベクトルを生成するようにさらに構成され、
前記プロセッシングエレメントアレイは:
前記第2固定小数点スケーリングされた入力ベクトルおよび前記第1複数の量子化符号値に基づいて第3固定小数点出力エレメントを生成する第3プロセッシングエレメント、および前記第2固定小数点スケーリングされた入力ベクトルおよび前記第2複数の量子化符号値に基づいて第4固定小数点出力エレメントを生成する第4プロセッシングエレメントをさらに含み、
前記第2データ型変換器は:
前記第3固定小数点出力エレメントおよび第4固定小数点出力エレメントのデータ型をそれぞれ変換して第3出力エレメントおよび第4出力エレメントを生成し、前記第3出力エレメントおよび第4出力エレメントを含む第2出力ベクトルを出力するようにさらに構成される、請求項1に記載のマトリックス乗算器。
【請求項3】
前記第1プロセッシングエレメントおよび第2プロセッシングエレメントは前記プロセッシングエレメントアレイの第1プロセッシングエレメントロウに配置され、
前記第3プロセッシングエレメントおよび第4プロセッシングエレメントは前記プロセッシングエレメントアレイの第2プロセッシングエレメントロウに配置される、請求項2に記載のマトリックス乗算器。
【請求項4】
前記第1プロセッシングエレメントおよび第3プロセッシングエレメントは前記プロセッシングエレメントアレイの第1プロセッシングエレメントカラムに配置され、
前記第2プロセッシングエレメントおよび第4プロセッシングエレメントは前記プロセッシングエレメントアレイの第2プロセッシングエレメントカラムに配置される、請求項2に記載のマトリックス乗算器。
【請求項5】
前記第1固定小数点スケーリングされた入力ベクトルの次元(dimension)は、前記第1入力ベクトルの次元のR倍であり、(但し、Rは2以上の整数)
前記第2固定小数点スケーリングされた入力ベクトルの次元は、前記第2入力ベクトルの次元のR倍である、請求項2に記載のマトリックス乗算器。
【請求項6】
前記第1入力ベクトルの次元、前記第2入力ベクトルの次元、前記第1出力ベクトルの次元、および前記第2出力ベクトルの次元は互いに同一である、請求項5に記載のマトリックス乗算器。
【請求項7】
前記第1データ型変換器は:
前記第1スケーリングされた入力ベクトルに含まれている第1複数のスケーリングされた入力エレメントそれぞれの指数(exponents)のうちの最も大きい第1指数を抽出する第1指数抽出回路;
前記第2スケーリングされた入力ベクトルに含まれている第2複数のスケーリングされた入力エレメントそれぞれの指数のうちの最も大きい第2指数を抽出する第2指数抽出回路;
前記第1指数に基づいて前記第1複数のスケーリングされた入力エレメントそれぞれのデータ型を固定小数点に変換して、前記第1固定小数点スケーリングされた入力ベクトルを生成する第1データ型変換回路;および
前記第2指数に基づいて前記第2複数のスケーリングされた入力エレメントそれぞれのデータ型を固定小数点に変換して、前記第2固定小数点スケーリングされた入力ベクトルを生成する第2データ型変換回路を含む、請求項2に記載のマトリックス乗算器。
【請求項8】
前記第2データ型変換器は:
前記第1指数に基づいて前記第1固定小数点出力エレメントおよび第2固定小数点出力エレメントのデータ型を浮動小数点に変換し、
前記第2指数に基づいて前記第3固定小数点出力エレメントおよび第4固定小数点出力エレメントのデータ型を浮動小数点に変換するようにさらに構成される、請求項7に記載のマトリックス乗算器。
【請求項9】
前記第1出力エレメントおよび第2出力エレメントの指数部(exponent part)は前記第1指数に対応し、そして
前記第3出力エレメントおよび第4出力エレメントの指数部は前記第2指数に対応する、請求項8に記載のマトリックス乗算器。
【請求項10】
前記第1プロセッシングエレメントは:
前記第1固定小数点スケーリングされた入力ベクトルに含まれている第1複数の固定小数点スケーリングされた入力エレメント、および前記第1複数の量子化符号値それぞれの積を累積して前記第1固定小数点出力エレメントを生成するように構成され、
前記第2プロセッシングエレメントは:
前記第2固定小数点スケーリングされた入力ベクトルに含まれている第2複数の固定小数点スケーリングされた入力エレメント、および前記第2複数の量子化符号値それぞれの積を累積して前記第2固定小数点出力エレメントを生成するように構成される、請求項2に記載のマトリックス乗算器。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は半導体装置に関するものである。より詳しくは、本開示はマトリックスの乗算を行うマトリックス乗算器、および/またはそれを含むマトリックス乗算装置に関するものである。
続きを表示(約 2,900 文字)【背景技術】
【0002】
最近、人工知能技術が発展するにつれて、人工知能モデルの演算量が急激に増加している。これにより、人工知能モデルの駆動時間を短縮させるための多様な技術が研究されている。
【0003】
一般に、人工知能モデルの動作時間の大部分はマトリックス乗算(matrix multiplication)に使用される。例えば、人工知能モデルは、入力マトリックスおよびウェイトマトリックスの乗算を行って出力マトリックスを演算する動作に大部分の駆動時間を使用することになる。これにより、BCQ(Binary Coding Quantization)などのような、入力マトリックスおよびウェイトマトリックスの乗算をより少ない演算量で行うための多様なアルゴリズムが研究されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は前述の技術的課題を解決するためのものである。より詳しくは、本開示の目的は、より速い速度およびより少ない演算量でマトリックス乗算を行うように構成された、マトリックス乗算器およびそれを含むマトリックス乗算装置を提供することにある。
【課題を解決するための手段】
【0005】
本開示の実施形態によるマトリックス乗算器は、第1入力ベクトルおよび複数の量子化スケール係数に基づいて第1スケーリングされた入力ベクトルを生成する入力ベクトルスケーラ、前記第1スケーリングされた入力ベクトルに基づいて第1固定小数点スケーリングされた入力ベクトルを生成する第1データ型変換器、前記第1固定小数点スケーリングされた入力ベクトルおよび第1複数の量子化符号値に基づいて第1固定小数点出力エレメントを生成する第1プロセッシングエレメント、および前記第1固定小数点スケーリングされた入力ベクトルおよび第2複数の量子化符号値に基づいて第2固定小数点出力エレメントを生成する第2プロセッシングエレメントを含むプロセッシングエレメントアレイ、および前記第1固定小数点出力エレメントおよび第2固定小数点出力エレメントのデータ型をそれぞれ変換して第1出力エレメントおよび第2出力エレメントを生成し、前記第1出力エレメントおよび第2出力エレメントを含む第1出力ベクトルを出力する第2データ型変換器を含むことができる。
【0006】
本開示の実施形態によるマトリックス乗算器は、第1入力エレメントおよび第1複数の量子化スケール係数に基づいて第1複数のスケーリングされた入力エレメントを生成し、第2入力エレメントおよび第2複数の量子化スケール係数に基づいて第2複数のスケーリングされた入力エレメントを生成する入力ベクトルスケーラ、前記第1複数のスケーリングされた入力エレメントに基づいて第1複数の固定小数点スケーリングされた入力エレメントを生成し、前記第2複数のスケーリングされた入力エレメントに基づいて第2複数の固定小数点スケーリングされた入力エレメントを生成する第1データ型変換器、複数の量子化符号値に基づいて、前記第1複数の固定小数点スケーリングされた入力エレメントおよび第2複数の固定小数点スケーリングされた入力エレメントを累積して、第1固定小数点出力エレメントを生成する第1プロセッシングエレメント、および前記第1固定小数点出力エレメントのデータ型を変換して第1出力エレメントを生成する第2データ型変換器を含むことができる。
【0007】
本開示の実施形態によるマトリックス乗算装置の動作方法は、外部装置から第1~第Nウェイトを受信する段階、前記第1~第Nウェイトをバイナリコーディング量子化(BCQ;binary coding quantization)して、第1~第(N×R)量子化符号値および第1~第(N×R)量子化スケール係数を生成する段階、前記外部装置から第1~第N入力エレメントを受信する段階、前記第1~第(N×R)量子化スケール係数に基づいて前記第1~第N入力エレメントをスケーリングして、第1~第(N×R)スケーリングされた入力エレメントを生成する段階、および前記第1~第(N×R)量子化符号値に基づいて前記第1~第(N×R)スケーリングされた入力エレメントを累積して生成された第1出力エレメントを出力する段階を含むことができる。
【0008】
本開示の実施形態例による外部からウェイトマトリックスおよび第1入力ベクトルを受信するマトリックス乗算装置は、前記ウェイトマトリックスをバイナリコーディング量子化して複数の量子化符号値および複数の量子化スケール係数を生成するBCQ回路、および前記複数の量子化符号値および前記複数の量子化スケール係数に基づいて、前記第1入力ベクトルおよび前記ウェイトマトリックスの積に対応する第1出力ベクトルを演算するマトリックス乗算器を含み、前記マトリックス乗算器は前記複数の量子化スケーリング値に基づいて前記第1入力ベクトルをスケーリングして、第1スケーリングされた入力ベクトルを生成する入力ベクトルスケーラ、前記第1スケーリングされた入力ベクトルに基づいて、第1固定小数点スケーリングされた入力ベクトルを生成する第1データ型変換器、前記複数の量子化符号ベクトルおよび前記第1固定小数点スケーリングされた入力ベクトルに基づいて、第1固定小数点出力ベクトルを演算するプロセッシングエレメントアレイ;および前記第1固定小数点出力ベクトルのデータ型を変換して前記第1出力ベクトルを生成する第2データ型変換器を含むことができる。
【0009】
本開示の実施形態によるn-次元入力ベクトルおよび‘n by m’次元を有するウェイトマトリックスを受信しm-次元出力ベクトルを出力するマトリックス乗算装置は、前記ウェイトマトリックスに基づいて、‘n by m’次元を有する第1~第R量子化符号マトリックス、および前記第1~第R量子化符号マトリックスの互いに異なるロウにそれぞれ対応する第1~第(n×R)量子化スケール係数を生成するBCQ(binary coding quantization)回路、前記第1~第(n×R)量子化スケール係数に基づいて、前記n-次元入力ベクトルのエレメントをスケーリングする入力ベクトルスケーラ、および複数のプロセッシングエレメントを含むプロセッシングエレメントアレイを含み、前記複数のプロセッシングエレメントそれぞれは、前記第1~第R量子化符号マトリックスに基づいてスケーリングされた前記入力ベクトルのエレメントを累積して前記n-次元出力ベクトルに含まれている互いに異なる出力エレメントを出力するように構成される。
【発明の効果】
【0010】
したがって、本開示の実施形態によれば、マトリックス乗算器の演算量を減少させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三星電子株式会社
洗濯機
9日前
三星電子株式会社
洗濯機
9日前
三星電子株式会社
洗濯機
1か月前
三星電子株式会社
半導体装置
15日前
三星電子株式会社
半導体装置
5日前
三星電子株式会社
集積回路素子
9日前
三星電子株式会社
イメージセンサ
8日前
三星電子株式会社
イメージセンサー
1か月前
三星電子株式会社
イメージセンサー
11日前
三星電子株式会社
半導体パッケージ
5日前
三星電子株式会社
イメージセンサー
8日前
三星電子株式会社
タイリング型表示装置
9日前
三星電子株式会社
自律走行型の掃除ロボット
9日前
三星電子株式会社
基板処理装置及び基板処理方法
1か月前
三星電子株式会社
マッサージ装置及びその制御方法
8日前
三星電子株式会社
接地領域を含むイメージセンサー
15日前
三星電子株式会社
イメージセンサー及びその製造方法
1か月前
三星電子株式会社
半導体パッケージ及びその製造方法
26日前
三星電子株式会社
イメージセンサ及びイメージ処理装置
15日前
三星電子株式会社
3次元オブジェクト認識方法及び装置
1日前
三星電子株式会社
解析装置、解析方法、およびプログラム
3日前
三星電子株式会社
積層型イメージセンサ及びその製造方法
10日前
三星電子株式会社
解析装置、解析方法、およびプログラム
3日前
三星電子株式会社
解析装置、解析方法、およびプログラム
3日前
三星電子株式会社
映像獲得装置、及びそれを含む電子装置
15日前
三星電子株式会社
ピクセル、及びそれを含むイメージセンサ
22日前
三星電子株式会社
イメージセンサ及びそれを含む電子システム
12日前
三星電子株式会社
化合物および有機エレクトロルミネッセンス素子
22日前
三星電子株式会社
磁気トンネル接合素子、及びそれを含むメモリ装置
1か月前
三星電子株式会社
不揮発性メモリ装置、及び、それを含む電子システム
1か月前
三星電子株式会社
半導体パッケージ、及び半導体パッケージの製造方法
5日前
三星電子株式会社
イメージセンサ及びそれを含むイメージセンシング装置
16日前
三星電子株式会社
動画エンコーダ、動画エンコーディング方法及び動画デコーダ
3日前
三星電子株式会社
電子部品内蔵モジュールおよび電子部品内蔵モジュールの製造方法
24日前
三星電子株式会社
テスト装置、テスト装置の動作方法及び半導体素子テストシステム
5日前
三星電子株式会社
ランプ信号生成器、及びそれを含むイメージセンサ、並びに電子装置
1か月前
続きを見る