AIE-ML メモリタイルの概要と機能

AIE-ML アーキテクチャには AIE-ML メモリタイルが導入されており、AIE-ML アレイ内のオンチップメモリが大幅に増加しています。メモリタイルにより、ML アプリケーションにおける PL リソース (LUT、ブロック RAM および URAM) の使用量が削減されます。これは AIE-ML タイルに似ていますが、AIE-ML プロセッサとプログラムメモリはありません。AIE-ML メモリタイルには、高集積度 (512 KB) の広帯域幅メモリ、およびローカルメモリと隣接メモリにアクセスするための DMA が統合されています。AIE-ML メモリタイルには垂直ストリーミングインターフェイスのみがあり、カスケード接続や水平ストリーミングインターフェイスはありません。DMA チャネルの一部は、左右方向に隣接するメモリタイル内のメモリに直接アクセスできます。次の図に、AIE-ML メモリタイルのアーキテクチャを示します。

図 1. AIE-ML メモリタイルのアーキテクチャ

メモリタイルには次のファンクションブロックがあります。これらは、AIE-ML タイルのブロックとまったく同じか、ほぼ同じものです。

メモリ
DMA
ロック
AXI4-Stream スイッチ
メモリマップド AXI4 スイッチ
制御、デバッグ、およびトレース
イベントおよびイベントブロードキャスト

次に、AIE-ML メモリタイルの機能を示します。

メモリ
- 128 ビット幅、深さ 2k ワードのバンク 16 個で構成された 512 KB メモリ、ECC 保護あり
- AIE-ML メモリタイルのメモリバンクは、ブートおよびリセット時に 0 に初期化
- 各メモリタイルにつき、最大 30 GB/s の読み出しと 30 GB/s の書き込みの並列実行をサポート
DMA
- 6 チャネルの MM2S (Memory to Stream) DMA
  - 6 x 32 ビットストリームインターフェイス
  - 6 x 128 ビットメモリインターフェイス
  - 5D テンソルアドレス生成 (iteration-offset を含む)
  - ストリームデータへのゼロパディング挿入と圧縮をサポート
  - 左右方向に隣接するタイル内のメモリおよびロックへのアクセス (チャネル 0 ～ 3)
  - タスクキューとタスク完了トークンをサポート。キューの深さはチャネルあたり 4 タスク (詳細はタスク完了トークン参照)
- 6 チャネルの S2MM (Stream to Memory) DMA
  - 6 x 32 ビットストリームインターフェイス
  - 6 x 128 ビットメモリインターフェイス
  - 5D テンソルアドレス生成 (iteration-offset を含む)
  - アウトオブオーダーパケット転送、Finish-on-TLAST、および圧縮伸張をサポート
  - 左右方向に隣接するタイル内のメモリおよびロックへのアクセス (チャネル 0 ～ 3)
  - タスクキューとタスク完了トークンをサポート。キューの深さはチャネルあたり 4 タスク (詳細はタスク完了トークン参照)
- バッファーディスクリプター (BD)
  - 48 個の共有 BD
  - 各チャネルは 24 個の BD にアクセスでき、各 BD には 6 チャネルからアクセス可能
- ストリームスイッチ
  - AIE-ML タイルと同じ設計。17 個のマスターポートと 18 個のスレーブポート
  - 上下方向のポートのみ。左右方向のストリームはなし
  - トレースおよび制御ポート
- ロックモジュール
  - 隣接する AIE-ML メモリタイル DMA チャネルからアクセス可能。64 個のセマフォロックがあり、各ロックステートは符号なし 6 ビット
- 追加の制御およびステータスレジスタ
  - イベント、イベントアクション、イベントブロードキャスト、コンボイベント
  - タスク完了トークンロジック (詳細はタスク完了トークン参照)
- コンフィギュレーション/デバッグインターコネクト (メモリマップド AXI4)
  - 各タイルに 1MB アドレス空間
  - 書き込み帯域幅が拡大し、ストリーム制御パケットをサポート
- デバッグおよびトレース
  - AIE-ML タイルのものとほぼ同じ
  - イベントトレースストリーム、4x パフォーマンスカウンター、および 64 ビットタイルタイマー