AI エンジンアーキテクチャの概要

AI エンジンアーキテクチャの概要 - 2023.2 日本語

AI エンジンツールおよびフローユーザーガイド (UG1076)

Document ID

UG1076

Release Date

2023-12-04

Version

2023.2 日本語

AI エンジンアレイのプログラミングには、インプリメントするアルゴリズム、AI エンジンの機能、および個々の関数ユニット間の全体的なデータフローを理解する必要があります。AI エンジンアレイでは、次の 3 つのレベルの並列処理がサポートされています。

SIMD: ベクトルレジスタを使用し、複数の要素を並列に演算します。
命令レベル: VLIW アーキテクチャにより、1 クロックサイクルで複数の命令を実行できます。
マルチコア: AI エンジンアレイにより、何百もの AI エンジンを並列に実行します。

ほとんどの標準 C/C++ コードは AI エンジン用にコンパイルできますが、AI エンジンアレイで最適なパフォーマンスを達成するには、コードを大幅に記述し直すことが必須な場合があります。AI エンジンの最大の利点は、各クロックサイクルで、ベクター MAC 演算を実行、次の演算用に 2 つの 256 ビットベクターをロード、前の演算からの 256 ビットベクターを格納、およびポインターをインクリメントまたは別のスカラー演算を実行できることです。ベクタープロセッサを利用するには、AIE API または組み込み関数を使用し、パイプライン処理されたベクター演算用にコードを構成する必要があります。AI エンジンコンパイラによって、自動またはプラグマベースのベクター化は実行されません。SIMD 組み込み関数のデータ型 (例: v8int32) およびベクター組み込み関数 (例: mac(…)) を使用してコードを記述し直す必要があり、最適なパフォーマンスを達成するためこれらをパイプラインループ内で実行する必要があります。32 ビットスカラー RISC プロセッサには、ALU、いくつかの非線形関数、およびデータ型変換が含まれます。各 AI エンジンでアクセスできるメモリの量は限られるので、大きなデータセットは分割する必要があります。

AI エンジンカーネルは、AI エンジン上で実行される関数で、データフローグラフ仕様の基本的な構築ブロックを形成します。データフローグラフは、さまざまな計算遅延または通信遅延に依存しない、動作が決定的なカーンプロセスネットワークです。AI エンジンカーネルは void C/C++ 関数として宣言され、グラフの接続にバッファーまたはストリーム引数を取ります。カーネルには、スタティックデータおよび非同期またはトリガーとなるランタイムパラメーター引数を含めることもできます。各カーネルは、個別のソースファイルで定義する必要があります。

全体的なシステムパフォーマンスを達成するには、アーキテクチャ、分割、AI エンジンデータフローグラフの生成、データフロー接続の最適化に関する知識と経験が必要です。詳細は、『Versal アダプティブ SoC AI エンジンアーキテクチャマニュアル』 (AM009) および『Versal アダプティブ SoC AIE ML アーキテクチャマニュアル』 (AM020) で説明されています。

AMDでは、AI エンジン用に最適化されたコードを含む DSP および通信ライブラリを提供しており、できるだけこれらを使用する必要があります。提供されているソースコードも、AI エンジンカーネルのコード記述を学ぶのに有益です。