ハードウェアアーキテクチャ

次の図に、DPUCVDX8H のハードウェアアーキテクチャの詳細を示します。各実装は 1 個の DPU インスタンスを持つことができ、1 個の DPU は 2 個、4 個、6 個、または 8 個のプロセッシングエンジンインスタンスを持つことができます。DPU インスタンスの数は FPGA リソースに依存します。

Conv 演算ユニットは AI エンジンに実装されます。Conv 制御ユニット、ロードユニット、保存ユニットはプログラマブルロジックに実装されます。MISC ユニット (プーリングおよび要素ごとの処理) は AI エンジンまたはプログラマブルロジックに実装されます。すべてのプロセッシングエンジンは、プログラマブルロジックに実装された重みユニットとスケジューラユニットを共有します。DRAM は、ネットワーク命令、入力イメージ、出力結果、中間データなどを格納するシステムメモリとして使用されます。起動後、DPU はシステムメモリから命令をフェッチし、演算エンジンの動作を制御します。

オンチップメモリは、高スループットを実現するために、重みデータ、バイアスデータ、中間データのバッファーとして使用されます。特徴マップバンクは、各プロセッシングエンジン専用です。すべてのプロセッシングエンジンは、同じ DPU インスタンスの重みバッファーを共有します。メモリ帯域幅を抑えるため、なるべく多くのデータを再利用します。Conv プロセッシングエンジン (PE) は AI エンジンの計算能力を最大限に活用して高い性能を実現します。

図 1. DPU のハードウェアアーキテクチャ (Misc ユニットを AI エンジン上に実装した場合)

図 2. DPU のハードウェアアーキテクチャ (Misc ユニットを PL に実装した場合)

ハードウェアアーキテクチャ - 1.1 日本語

たたみ込みニューラルネットワークにおける DPUCVDX8H 製品ガイド (PG403)