一部の AMD Versal™ アダプティブ SoC に内蔵される AI エンジンには、異なる市場向けに最適化された複数のバージョンがあります。最初のバージョンである AI エンジン (AIE) は DSP および通信アプリケーション向けに最適化されており、AI エンジン-ML ( AIE-ML) は機械学習に最適化されています。このセクションでは、AIE と比較した AIE-ML の主な違いを示します。これには次が含まれます。
- ML/AI 推論ワークロードのスループット向上。
- ML/AI アプリケーションの精度に最適化。bfloat16 および INT4 の追加など。
- オンチップ メモリの大容量化と帯域幅の拡大 (各 AIE-ML タイルのデータ メモリ容量を倍増し、AIE-ML アレイの各カラムに AIE-ML メモリ タイルを追加)。
- 乗算器の性能向上。
- 電力消費効率の重視 (TOPS/W の向上)。
- 同期およびリコンフィギュレーション用のハードウェアを改良。
AIE ブロックと AIE-ML ブロックの違いは次のとおりです。
- 削除:
- INT32 のネイティブ サポート。32 ビット数値の乗算は直接サポートされず、複数 16 x 16 ビット乗算に分解することでエミュレーションによりサポート。cint32 x cint16 乗算もサポートし、FFT 性能を最適化。
- ネイティブ FP32 (bfloat16 を使用したエミュレーションによりサポート)。
- 追加:
- タイルあたりの INT8/16 演算性能が AIE の 2 倍に向上
- bfloat16 および INT4
- ローカル メモリ タイル