メモリおよびデータ移動

次の事項を決定するには、Versal アダプティブ SoC 内のメモリ階層を理解することが重要です。

どの範囲の問題を解決する必要があるか。
各種エンジン間でデータがどのように通信されるか、そしてどれだけの帯域幅を利用できるか。
AI エンジンを使用する場合、各 AI エンジンで利用できる生の演算性能をどのように活用して、アプリケーションの 1 ワットあたりの性能を最大に高めるか。

アプリケーションの種類によって実際に運用される環境が異なるため、メモリ階層も異なってきます。たとえば、外部 DDR メモリを必要とするアプリケーションもあれば、JESD などのインターフェイスを使用してディスクリート A/D コンバーター (ADC) からデータを取り込むアプリケーションもあります。データをどこから取得するにせよ、システム要件を満たすためには適切なメモリ階層を構築することが重要です。

たとえば、外部 DDR メモリを必要とするシステムでは、DDR メモリからデータを取得できるレートは仕様で決まっています。これによって、システムの最大帯域幅が固定されます。たとえば Versal アダプティブ SoC で LPDDR を使用する場合、各メモリコントローラーから NoC への最大メモリ帯域幅は約 34 Gb/s です。

DDR メモリからのデータは、NoC を経由してアダプティブ SoC 全体に移動できます。AI エンジンの場合、AI エンジンアレイインターフェイス内の NoC インターフェイスタイルを経由して AI エンジンアレイに直接アクセスできます。ただしこの帯域幅はあまり広くないため、AI エンジンタイルへデータを移動する方法として最適ではないことがあります。

Versal デバイスでは大量のオンチップメモリを利用できるため、ほとんどの場合、データを NoC 経由で PL 内のステージングメモリ (UltraRAM やブロック RAM など) に取り込むのが一般的です。この場合、PL と AI エンジンアレイ間の帯域幅の方が双方向とも非常に広いため、PL インターフェイスアレイタイルを使用して AI エンジンとの間でデータを転送します。

アプリケーションによっては、DDR メモリ - NoC - AI エンジンの間で直接の通信が必要となることがあります。このような通信も可能ですが、全体的な帯域幅は狭くなります。したがって、ほとんどのアプリケーションではデバッグ、トレース、および制御通信には PS または任意のマスターを介して NoC を使用することを推奨します。

AI エンジンアレイを内蔵したデバイスの場合、各 AI エンジンタイルにローカルデータメモリがあります。各タイルには 4 KB のデータメモリバンクが 8 個あります (1 タイルに合計 32 KB)。各 AI エンジンコアは、同じ AI エンジンタイル上のデータメモリ、および隣接する 3 つのタイル (たとえば、上、下、および右/左) のデータメモリに対して直接のローカルアクセスが可能です。これにより、各タイルは 128 KB のローカルメモリを共有します。

AI エンジン ML アレイを搭載したデバイスには追加の 512 KB メモリタイル行があり、低レイテンシのローカルメモリストレージを提供します。

次の図に、VC1902 全体で使用可能なメモリを示します。Versal AI コアデバイスについては、『Versal AI コアシリーズ製品セレクションガイド』 (XMP452) を参照してください。

図 1. Versal アダプティブ SoC AI コアシリーズファミリのオンチップメモリ階層

注記: AI エンジンアレイの全メモリ容量は、32 KB x (デバイスの AI エンジンタイル数) で求まります。たとえば、VC1902 には 400 個のタイルがあります。したがって、AI エンジンアレイの全メモリ容量は (32 KB x 400) = 12.8 MB です。

特に AI エンジンアレイを使用する場合、効率的なデザインとするためにはデータ通信が重要になります。このため、デザインを効率よく分割するには、AI エンジンと外部とのデータ帯域幅、および AI エンジン間の内部データ帯域幅を理解する必要があります。詳細は、『Versal アダプティブ SoC AI エンジンアーキテクチャマニュアル』 (AM009) のこのセクションを参照してください。

図 2. Versal アダプティブ SoC 全体の通信帯域幅

対称型 FIR、たたみ込みニューラルネットワーク (CNN)、ビームフォーミングなどの機能では、一部のデータが再利用されます (係数や重みの共有など)。これらの機能では、ストリーミングブロードキャスト機能を使用して同じ重みまたは係数を複数の AI エンジンタイルへ送信することにより、メモリ帯域幅を抑えることができます。大量のデータを再利用するアプリケーションは、AI エンジンへの実装が適しています。大規模なフィルターを 1 つのタイルに実装した場合、データ再利用にはウィンドウインターフェイスの方が適しています。

次の図に、AI エンジンアレイまでの Versal アダプティブ SoC 全体のデータフローの例を示します。デバイス全体でのデータマップを検討する際は、ここに示した帯域幅の値を参考にしてください。

図 3. AI エンジンへのデータフロー例

このデータフローの例を使用する場合、個々のアプリケーションに固有の値を検討するする必要があります。DDR メモリから PL 内のステージングメモリ (UltraRAM など) にデータを取り込むかどうかは、転送するデータ量、メモリコントローラーのスループット、NoC の帯域幅、およびメモリ容量によって判断します。

UltraRAM にデータをロードした後、PL でデータの並べ替えまたはプリプロセスステージが必要になることがあります。それ以外の場合は、データを AI エンジンに送信して処理する必要があります。データフローのこのフェーズでは、AI エンジンアレイインターフェイスの帯域幅、およびデータを必要なタイルへ転送する際の AI エンジンアレイ内の帯域幅を考慮することが重要です。

AI エンジンで解決する問題の範囲は、AXI4-Stream の帯域幅、および AI エンジンタイルおよびアレイ内のデータメモリ容量の両方によって決まります。

メモリおよびデータ移動 - 2023.2 日本語

Versal アダプティブ SoC システムおよびソリューションプランニング設計手法ガイド (UG1504)