AI エンジン - 2023.2 日本語

AMD Versal™ アーキテクチャで導入された AI エンジンアレイは、5G ワイヤレスや機械学習アルゴリズムなど、演算処理の多いアプリケーションや複雑な DSP を多用するアプリケーション向けのソリューションを提供します。AI エンジンは、メモリとインターコネクトが統合された高性能 VLIW ベクトル (SIMD) プロセッサで、デバイス内の 2 次元アレイネットワークに接続されたほかの AI エンジンコアとの通信に使用します。

Versal アダプティブ SoC 用の PDM の AI Engine タブは、AI コアシリーズファミリと、一部の AI エッジシリーズのデバイスで使用可能です。PDM では、特定の設定の AI エンジンブロックの消費電力が見積もられます。次の図は、AI エンジンの消費電力インターフェイスを示しています。

図 1. AI エンジンの消費電力インターフェイス

早期段階の消費電力見積もりでは、クロック周波数、コア数、カーネルタイプ、コアのベクター負荷平均比率など AI エンジンアレイのコンフィギュレーションの詳細を指定する必要があります。サポートされるカーネルタイプは、Int8、Int16、Int32、および浮動小数点です。

ヒント: [Vector Load] パーセントを考慮する際は、平均負荷パーセントを使用します。カーネルは使用可能なコアのランタイムの 100% を使用する可能性がありますが、プリフェッチ、メモリアクセス、NoP、ストリーム、およびロック停止によるオーバーヘッドを考慮する必要があります。推奨される範囲は 30% ～ 70% です。

Data Memory および Interconnect Load フィールドは、使用されている AI エンジンの数に基づいて自動的に入力され、アプリケーション要件に基づいて上書きできます。AI エンジンタイルには 8 つのメモリバンクがあります (各バンクのサイズは 4 KB で、1 タイルあたり合計 32 KB です)。デフォルトでは、PDM はこれらすべてを使用します。アプリケーションがより少ないバンクアクセスを必要とする場合、これをオーバーライドできます。

メモリ R/W レートとは、各バンクの平均の読み出し/書き込みメモリアクセスです。

ヒント: メモリ R/W レートは平均値です。PDM はデフォルトで 20% を使用します。推奨値の範囲は 10% ～ 30% です。

AI エンジンアレイインターフェイスは、AMD Versal™ アダプティブ SoC の残りの部分にアクセスできます。プログラマブルロジック (PL) とネットワークオンチップ (NoC) の両方に対応したインターフェイスタイルがあり、これらのインターフェイスタイルはストリームとして表されます。PL/NoC ストリームは、デザインアプリケーションに応じて上書きできます。インターコネクトフィールドは読み取り専用で、入力に基づいて計算されます。PL ストリームは AI エンジンタイルの最初の行で使用可能なストリームを表示し、使用される 64b PL ストリームの数を指定できなす。PL ストリームは、使用される 20 AI エンジンタイルごとにデフォルトで 14 ストリームに設定することをお勧めしますが、ただし、PL ストリームは変更できます。PL のストリームが総 AI エンジンアレイ内で使用可能なストリームを超えた場合、DRC が表示されます (Utilization の表でセルが黄色になります)。

インターコネクト負荷は、12% の固定値に平均化され、消費電力への影響は最小限です。これは、次のセクションで説明するインポートフローを使用すると変更できます。クロック速度の最大範囲は、–3H グレードで 1300 MHz のデバイスのスピードグレードによって異なります。詳細は、『Versal アダプティブ SoC AI エンジンアーキテクチャマニュアル』 (AM009) を参照してください。