TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025134880
公報種別公開特許公報(A)
公開日2025-09-17
出願番号2025104705,2023570416
出願日2025-06-20,2022-11-09
発明の名称データ依存の不規則な演算のためのプログラム可能なアクセラレータ
出願人グーグル エルエルシー,Google LLC
代理人弁理士法人深見特許事務所
主分類G06F 9/38 20180101AFI20250909BHJP(計算;計数)
要約【課題】データ依存演算、不規則演算および/またはメモリバウンド演算を加速させることができるアクセラレータを提供する。
【解決手段】ハードウェア回路101は、スパースアクセラレータ103、設計および製作中にコプロセッサ上の計算負荷並びに挙動に関して予測可能な演算を加速するコプロセッサ104、高帯域幅メモリ107およびオンチップ相互接続108を含む。スパースアクセラレータ103は、1つ以上のタイル102A~102Fを含み、各タイルは、それぞれのベクトル処理ユニット(VPU)を実装し、それぞれのクロスレーン処理ユニット(XPU)101A~101Fを含む。スパースアクセラレータはまた、タイル102A~120F間にわたって入力データおよび出力データを協調させるタイルシーケンサ106を含む。
【選択図】図1A
特許請求の範囲【請求項1】
プロセッサであって、
複数のタイルを含み、前記複数のタイルの各々は、
ベクトルコアと、
共有ソフトウェア制御型スクラッチパッドメモリのスライスとを含み、
前記プロセッサはさらに、
前記複数のタイルにタスクをディスパッチするように構成されたスカラーコアと、
前記複数のタイルおよび前記スカラーコアに結合されたメモリとを含む、プロセッサ。
続きを表示(約 920 文字)【請求項2】
各タイルは独立した計算を実行するように構成される、請求項1に記載のプロセッサ。
【請求項3】
前記複数のタイルの各々における前記ベクトルコアは、複数のシングルインストラクション・マルチプルデータ(single instruction, multiple data:SIMD)処理レーン
を含む、請求項1に記載のプロセッサ。
【請求項4】
前記複数のタイルのマルチプルタイルは、メインメモリに対して並列にメモリ要求を発行する、請求項1に記載のプロセッサ。
【請求項5】
前記複数のタイルの各々における前記ベクトルコアは、メモリ階層の任意のレベルへのデータ依存アドレスストリームを生成するように構成される、請求項1に記載のプロセッサ。
【請求項6】
各々のデータ依存アドレスストリームはアドレスのシーケンスに対応し、前記シーケンスにおける前記アドレスの長さおよび特定値は、データ依存であり、実行時にのみ既知となる、請求項5に記載のプロセッサ。
【請求項7】
前記複数のタイルの各々における前記ベクトルコアは、マイクロアーキテクチャへのデータ依存アドレスストリームの高性能サービスを切離したままで、前記データ依存アドレスストリームを表現するように構成される、請求項5に記載のプロセッサ。
【請求項8】
前記マイクロアーキテクチャは、前記データ依存アドレスストリームの前記高性能サービスのためのスキャッタ・ギャザー・エンジンを含む、請求項7に記載のプロセッサ。
【請求項9】
前記データ依存アドレスストリームは、複数のアドレス指定モード、実行時構成可能転送サイズ、およびアトミック算術更新での間接メモリアクセスを含む、請求項7に記載のプロセッサ。
【請求項10】
前記複数のタイルの各々における前記ベクトルコアは、メモリの静的サイズの領域上の動的サイズのデータストリームの転送およびアクセスを可能にする循環バッファ命令を含む、請求項1に記載のプロセッサ。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
関連出願の相互参照
本願は、2022年6月30日に出願された米国仮特許出願第63/357,281号、2022年3月22日に出願された第63/322,285号、2021年11月22日に出願された第63/281,960号、2021年11月15日に出願された第63/279,262号の出願日の利益を主張する、2022年11月7日に出願された米国特許出願第17/981,617号の継続出願であり、これらの開示が引用により本明細書中に援用されている。本願は、2022年10月25日に出願された米国特許出願第17/972,681号、2022年10月25日に出願された第17/972,663号、および2022年4月18日に出願された第17/722,782号に関するものであり、これらの開示が引用により本明細書中に援用されている。
続きを表示(約 2,400 文字)【背景技術】
【0002】
背景
ハードウェアアクセラレーションは、特定のタイプの演算をより効率的に実行するためのコンピュータハードウェアを用いるものである。加速され得る例示的なタイプの演算は、線形代数演算、例えば行列対行列乗算または行列対ベクトル乗算を含む。ハードウェアが加速させる演算を実行するために構築されたデバイスまたはプロセッサはアクセラレータと称されることもある。
【0003】
アクセラレータは、所望の演算のごく一部を加速するように設計および製作される。アクセラレータの設計および製作プロセス中、アクセラレータが受取る入力のサイズおよびタイプ、アクセラレータが入力を受取る規則性、または演算を実行するための計算要件等の、加速させることが所望される演算の性質に関して仮定が立てられる。結果として、アクセラレータは、多くの場合、高度に特殊化されてしまい小クラスの所定の演算を加速するしかできなくなる恐れがあり、仮にあったとしても、他の演算を効率的に実行することができなくなってしまう。
【0004】
このクラス外の演算は、演算の実行前にアクセラレータに対する計算負荷を決定することができないデータ依存演算を含む。この種類の加速演算の複数のインスタンスは、さまざまな要因に応じて変わる可能性があり、所定のアクセラレータ設計ではこれらのインスタンスのうち少なくともいくつかを加速するのが非効率になる可能性がある。加速させることが困難な他の種類の演算として、演算強度が低くデータの再使用が限られているメモリバウンド演算が含まれる。加速させることが困難なさらに別の種類の演算として、ランダムメモリアクセスと、複雑なコードパターンと、同時に行なわれる複数のサブ演算の並列実行の多様な使用とによって特徴付けられ得る不規則な演算が挙げられる。
【0005】
実際には、機械学習モデルをトレーニングまたは展開するため等の処理パイプラインは、多種多様な種類の演算を実行することを要する。いくつかの種類の演算のみを加速するためにパイプラインにアクセラレータを組込み、ハードウェアの加速なしでデバイスに依拠して他の種類の演算を実行することにより、アクセラレータと非アクセラレータとの間のリンクおよび相互接続に対して許容できない遅延およびメモリ帯域幅ストレスが課され、全体的な性能が制限されることとなる。全てのタイプの演算をカバーするようにアクセラレータを設計および製作することは、ほとんどの場合不可能であるかまたは実行不可能である。データ依存演算は加速に寄与せず、他のタイプの演算を加速するためのロジスティックな労力は、対応するアクセラレータの設計、製作および展開に投資するだけの価値がない可能性もある。
【発明の概要】
【0006】
概要
本開示の局面は、データ依存演算、不規則演算および/またはメモリバウンド演算を加速させることができるアクセラレータを提供する。本明細書に記載のアクセラレータは、設計および製作中にコプロセッサ上の計算負荷および挙動に関して予測可能な演算を加速するように構成されたコプロセッサと共に、動的、不規則および/またはメモリバウンドであるオンチップでの計算を効率的に実行するためのプログラマブルエンジンを含む。
【0007】
動的演算は、実行される計算がデータに依存するかまたは入力に依存する演算であり、これは、演算を実行する前に入力が知られていないことを意味する。演算の不規則性は、ランダムメモリアクセス、複雑なコードパターン、ならびに様々な入力データに関する演算の様々なインスタンスを実行するために必要な様々な量の計算リソースおよび並列性に起因する可能性がある。メモリバウンド演算は、しばしば、演算強度の低い演算であり、例えば、演算の加速中に転送されるデータの単位当たりに実行される演算の数が少なく、データの再使用が制限されている。
【0008】
本明細書に記載のアクセラレータは、複数のアクセラレータおよび他のプロセッサを実装するホストデバイスまたはデータセンタ上での加速をスケーリングするために、様々なサイズのデータのクロスチップデータスキャッタおよびギャザー演算を調整および分散させることができる。本明細書に記載するように、アクセラレータは、アクセラレータ自体を実装するハードウェア回路への物理的な再設計または変更を必要とすることなく、様々なタイプのデータ依存演算、不規則演算、および/またはメモリバウンド演算の加速に適合させるために構成可能なアーキテクチャの基本要素を活用する。
【0009】
本開示の局面は、例えば埋込み形式で、スパース性を呈するニューラルネットワーク層の計算を加速させることができるアクセラレータを提供する。スパース計算は、計算されたデータの値(例えば、入力値、出力値、または中間値)の小数部がゼロとなる計算を指す。小数部は、例えば0.1%~50%の間で変化し得る。本開示の局面は、機械学習処理パイプラインの一部として埋込みのトレーニングおよび処理の加速をもたらす。
【0010】
本開示の局面はプロセッサを提供する。当該プロセッサは複数のタイルを含み、当該複数のタイルの各々は、ベクトルコアと、共有ソフトウェア制御型スクラッチパッドメモリのスライスとを含む。当該プロセッサはさらに、当該複数のタイルにタスクをディスパッチするように構成されたスカラーコアを含む。当該プロセッサはまた、当該複数のタイルおよび当該スカラーコアに結合されたメモリを含む。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

グーグル エルエルシー
データ依存の不規則な演算のためのプログラム可能なアクセラレータ
16日前
個人
工程設計支援装置
1か月前
個人
フラワーコートA
1か月前
個人
地球保全システム
2日前
個人
冷凍食品輸出支援構造
29日前
個人
介護情報提供システム
2か月前
個人
為替ポイント伊達夢貯
29日前
個人
設計支援システム
2か月前
個人
設計支援システム
2か月前
個人
携帯情報端末装置
1か月前
個人
表変換編集支援システム
22日前
個人
知財出願支援AIシステム
29日前
個人
結婚相手紹介支援システム
1か月前
個人
パスワード管理支援システム
22日前
個人
AIによる情報の売買の仲介
1か月前
個人
行動時間管理システム
24日前
個人
食品レシピ生成システム
1日前
株式会社キーエンス
受発注システム
1日前
個人
アンケート支援システム
1か月前
個人
システム及びプログラム
15日前
株式会社キーエンス
受発注システム
1日前
株式会社アジラ
進入判定装置
1か月前
個人
海外支援型農作物活用システム
14日前
日本精機株式会社
施工管理システム
1か月前
株式会社キーエンス
受発注システム
1日前
個人
パスポートレス入出国システム
1か月前
個人
AIキャラクター制御システム
22日前
サクサ株式会社
中継装置
2か月前
個人
未来型家系図構築システム
14日前
個人
音声対話型帳票生成支援システム
22日前
個人
ジェスチャーパッドのガイド部材
2か月前
個人
冷凍加工連携型農場運用システム
29日前
個人
SaaS型勤務調整支援システム
22日前
個人
人格進化型対話応答制御システム
22日前
個人
社会還元・施設向け供給支援構造
22日前
キヤノン株式会社
表示システム
1日前
続きを見る