AI エンジンタイルのアーキテクチャ

次に、AI エンジンタイルのアーキテクチャ、主要な構築ブロック、および AI エンジンタイルのコネクティビティを含む最上位ブロック図を示します。

図 1. AI エンジンタイルのブロック図

AI エンジンタイルは、次のハイレベルモジュールで構成されます。

タイルインターコネクト
AI エンジン
AI エンジンメモリモジュール

タイルインターコネクトモジュールは、AXI4-Stream およびメモリマップド AXI4 入出力トラフィックを処理します。メモリマップド AXI4 および AXI4-Stream インターコネクトの詳細は、この後のセクションで説明します。AI エンジンメモリモジュールは、8 つのメモリバンクに分割された 32KB データメモリ、メモリインターフェイス、DMA、およびロックで構成されます。DMA は受信方向と送信方向の両方にあり、各メモリモジュールには 1 つのロックブロックがあります。AI エンジンは、4 方向すべてのメモリモジュールに 1 つの連続したメモリブロックとしてアクセスできます。メモリインターフェイスは、AI エンジンから生成されたアドレスに基づいて、メモリアクセスを正しい方向へマップします。AI エンジンは各 1 個のスカラープロセッサとベクトルプロセッサ、3 個のアドレスジェネレーター、および 16KB のプログラムメモリで構成されます。また、アキュムレータ出力を次の AI エンジンタイルに転送するためのカスケードストリームアクセスもあります。AI エンジンの詳細は、AI エンジンのアーキテクチャで説明します。AI エンジンと AI エンジンメモリモジュールの両方に制御、デバッグ、およびトレースユニットがあります。これらユニットの一部については、この章で後述します。

制御およびステータスレジスタ
イベント、イベントブロードキャスト、およびイベントアクション
プロファイリング用のパフォーマンスカウンターとタイマー

次の図に、AI エンジンタイルおよび専用インターコネクトユニットを配列した AI エンジンアレイを示します。AI エンジンアレイ内での主なデータ移動手段として、隣接する AI エンジンのローカルメモリを使用してデータを共有します。各 AI エンジンは、次に示す最大 4 つのメモリモジュールにアクセスできます。

AI エンジン自身のモジュール
上側のモジュール
下側のモジュール
右側または左側のモジュール (行および AI エンジンとメモリモジュールの位置関係による)

格子状のパターンに配列されたアレイの端にある AI エンジンは、アクセスできるメモリモジュールの数が 1 つまたは 2 つ少なくなります。

図 2. AI エンジンアレイ

柔軟な専用インターコネクトとの組み合わせにより、AI エンジンアレイは確定的な性能、低レイテンシ、および高帯域幅を実現します。モジュラー型のスカラーアーキテクチャのため、アレイにタイルを追加して演算性能を高めることができます。

カスケードストリームは、最下行から最上行へ向かって水平方向に移動します。ある行の端までカスケードストリームが到達すると、その上の行のタイルの入力に接続されます。したがって、カスケードストリームの移動方向は、1 行ごとに反転します (ある行で左から右へ移動したら、その上の行では右から左へ移動)。最上行の端まで到達し、それ以上接続がなくなると、カスケードストリームの移動は終了します。このように移動方向が変化するため、タイル内の AI エンジンとメモリモジュールの位置関係は 1 行ごとに反転します。