ハードウェアアーキテクチャ

DPUCVDX8G は、PL と AI エンジンで構成されています。AI エンジンは、ニューラルネットワークのたたみ込み演算に使用されます。PL では、データ転送、命令スケジューラ、プーリング、要素ごとの和、空間方向のたたみ込みなどが実行されます。

DPUCVDX8G は、複数のバッチハンドラーを使用して設定できます。各バッチハンドラーには、対応する AI エンジンアレイとそれらに関連する AI エンジンインターフェイスタイルリソースがあります。PL 側では、DPUCVDX8G はバッチハンドラーと共有ロジックの 2 つの部分に分割されます。バッチハンドラーは、主に読み込み、格納、プーリングなどの特徴マップの処理に使用されます。バッチハンドラー内の論理演算ユニット (ALU) モジュールが、特徴マップ用のプーリングや要素ごと/空間方向のたたみ込み演算を実行します。特徴マップは、オンチップ RAM で構成される IMG BANK に格納されます。AI エンジンアレイに送るデータを準備するために、Image Sender モジュールと Weight Sender モジュールを使用します。PL コンポーネントの共有ロジックには、Permuter モジュールと Scheduler モジュールがあります。Scheduler モジュールは、NoC から命令をフェッチしてディスパッチし、その後、バッチハンドラーと Permuter モジュールに転送します。Permuter モジュールは、NoC から重みとバイアスを読み込み、計算を反復実行するたびに特定の重みデータを AI エンジンアレイに転送します。詳細は、表 1を参照してください。

また、DPUCVDX8G は、複数の演算ユニットでセットアップして異なるモデルを同時に実行することも可能です。この場合、NoC の PL NMU インターフェイスが多く必要になることに留意してください (表 1参照)。

起動後、DPUCVDX8G は NoC から命令をフェッチし、演算エンジンの動作を制御します。命令は、高度な最適化機能を持つ Vitis™ AI コンパイラによって生成されます。

オンチップメモリを入力データ、中間データ、および出力データのバッファーとして使用することで、高スループットと高い効率性を実現します。外部メモリの帯域幅を抑えるため、データを再利用します。演算エンジンには、多段パイプラインデザインを使用しています。

次の図に、DPUCVDX8G のハードウェアアーキテクチャの詳細を示します。

図 1. DPUCVDX8G のハードウェアアーキテクチャ

ハードウェアアーキテクチャ - 1.2 日本語

Versal ACAP 向け DPUCVDX8G 製品ガイド (PG389)