M_AXI インターフェイスを使用したデザインのベストプラクティス

M_AXI インターフェイスを使用したデザインのベストプラクティス - 2023.2 日本語

Vitis 高位合成ユーザーガイド (UG1399)

Document ID

UG1399

Release Date

2023-12-18

Version

2023.2 日本語

AMD Vitis™ カーネルをインプリメントする設計者の場合、FPGA デバイスで使用可能なデバイスメモリ (PLRAM、HBM、DDR) を使用する際にさまざまなトレードオフを利用できます。次に、アプリケーションの AXI4 メモリマップドインターフェイスを設計する際に使用するベストプラクティスのチェックリストを示します。

スループットが最適化の最大目標であることから、マクロおよびマイクロアーキテクチャの最適化を使用してアプリケーションの計算部分をアクセラレーションすることが最初のステップであることは明らかですが、カーネルとの間でデータを転送する時間も、スループット目標に関してアプリケーションアーキテクチャに影響を与える可能性があります。データ転送のオーバーヘッドが大きいため、アプリケーションに存在する通信 (データ移動) と計算がオーバーラップしていることを考慮することが重要となっています。

指定されたアプリケーションで次を実行します。

LCS (Load、Compute、Store) コーディングパターンを使用してモデル化されたプロデューサーとコンシューマータスクのパイプラインを構築して、カーネルアルゴリズムを分解します
- すべての外部 I/O アクセスは、Load タスクと Store タスクに含まれる必要があります。
- カーネルが異なるポートから並行して読み書きする必要がある場合は、複数の Load タスクまたは Store タスクが必要です。
- Compute タスクに含めるのは、スカラー、配列、ストリーム、またはストリームオブブロック引数のみです。
- これらすべてのタスク (関数として指定) をオーバーラップして実行できることを確認します (コンパイラによるタスクレベルの並列処理を有効にします)。
- Compute タスクは、さらに小さな計算タスクに分割できます。この結果、パイプライン処理など、さらに最適化が実行されることがあります。LCS と同じ規則が、これらの小さな計算関数にも適用されます。
- 常にローカルメモリを使用して、Compute タスクとの間でデータを送受信します。
Load ブロックと Store ブロックは、グローバルメモリと Compute ブロック間でできるだけ効率的にデータを移動する役割を果たします。
- 一方で、カーネル内の Compute タスクで指定された (一時的な) シーケンシャルな順序に従って、ストリーミングインターフェイスを介してデータを読み書きする必要があります。
- もう一方では、ソフトウェアアプリケーションにより設定された (空間的) 配置順序に従って、メモリマップドインターフェイスを介してデータを読み書きする必要があります。
HLS を使用して適切なハードウェアデザインを構築するには、データアクセスに関する考え方を変えることが重要です。
- ソフトウェアでは、データがどのように「アクセス」される (アルゴリズムが必要とするデータを引っ張る) かを考えるのが一般的です。
- ハードウェアでは、データがアルゴリズムをどのように「流れる」 (データがアルゴリズムへプッシュされる) かを考える方が効率的です。
- ソフトウェアでは、配列インデックスとデータがアクセスされる場所について考えます。
- ハードウェアでは、ストリームとデータがアクセスされるタイミングをについて考えます。
グローバルメモリは長いアクセス時間 (DRAM、HBM) を持ち、その帯域幅は限られています (DRAM)。グローバルメモリへのアクセスのオーバーヘッドを削減するには、インターフェイス関数を使用する必要があります。
- 十分に大きい連続したデータブロックにアクセスします (AXI バースト転送の利点を活かします)。
- データに順次アクセスすると、ランダムデータや順不同データ (バースト解析がエラーになる) にアクセスするよりも、バーストが大きくなります (データスループット効率が高くなります)。
- 冗長なアクセスを回避します (帯域幅を維持するため)。
多くの場合、Compute タスクで送受信されるデータの順序は、グローバルメモリ内のデータの配置順序とは異なります。
- このような状況では、インターフェイス関数を最適化するために、十分なデータを収集して適切に整理する内部キャッシュ構造を作成し、グローバルメモリアクセスのオーバーヘッドを最小限に抑えながら、ストリーミングインターフェイスで想定される順序を満たす必要があります。
- データをメモリに保存するさまざまな方法を検討して、データ移動ロジックをシンプルにすることもできます。たとえば、DRAM 内のデータに列優先順でアクセスすると、効率性がかなり劣ることがあります。カーネルに専用のデータムーバーをインプリメントするよりも、ソフトウェア内のデータを置き換えて、行優先順で格納した方が良い場合があり、ハードウェアアクセスパターンをかなりシンプルにできます。
512 ビット (64 バイト) に設定し、インターフェイスのポート幅 (各 AXI ポートのビット幅) を最大化します。
- ポートのデータ型として、hls::vector または ap_(u)int<512> を使用して、最大バースト長を推論します。インターフェイスで構造体を使用すると、バーストパフォーマンスが低下する可能性があります。
- グローバルメモリへのアクセスはコストがかかるため、より大きなワードサイズにアクセスする方が効率的です。
- インターフェイスポートが、カーネルにデータを送るパイプのようなものであるとすると、パイプの幅が広いほど、アクセスおよび処理して送信し戻せるデータも多くなります。
- グローバルデバイスメモリから大きなデータブロックを転送します。小型の転送を複数実行するよりも、1 つの大型転送を実行する方が効率的です。帯域幅は PCIe のパフォーマンスによって制限されます。DMA テストを実行して、 PCIe® 転送の有効な最大スループットを測定します。通常、読み出しおよび書き込みの範囲は 10 ～ 17 GB/秒です。
  - メモリリソースには、PLRAM (サイズは小さいが最短レイテンシで高速アクセスが可能)、HBM (中程度のサイズで多少のレイテンシあり)、DRAM (サイズは大きいがレイテンシは最長になるので低速アクセス) などが含まれます。
  - 読み出しの非同期性を考えると、分散 RAM が高速バッファーには理想的です。読み出し値は、次のクロックサイクルを待たず、すぐに使用できます。また、分散 RAM を使用して小さな ROM を作成することもできます。ただし、分散 RAM は大容量メモリには適しておらず、ブロック RAM または UltraRAM を使用すると、約 128 ビットを超えるメモリのパフォーマンスが向上 (および消費電力が低減) します。
同時処理ポートの最適な数、つまり同時処理 AXI (メモリマップド) ポートの数を決定します。
- Load タスクで、複数の入力データセットを取得して Compute タスクにフィードする必要がある場合は、複数のインターフェイスポートを使用して、このデータに並列でアクセスするように選択できます。
- ただし、データは異なるメモリバンクに格納しないと、アクセスがシーケンシャルになります。FPGA には最大 4 つの DDR メモリバンクがあり、HBM チャネルは 32 個あります。
- 複数のプロセスが同じメモリポートまたはメモリバンクにアクセスする場合、アービタにより、これらの同時アクセスを同じメモリポートまたはバンクがシーケンシャルにされます。
各 AXI ポートの正しいバースト長、つまり最大バーストアクセス長 (要素数) を設定します。
- バースト長を最大 4k バイト転送に相当する長さに設定します。たとえば、512 ビット (64 バイト) の AXI データ幅を使用する場合、バースト長は 64 に設定する必要があります。
- データをバースト転送すると、メモリアクセスのレイテンシは表示されず、帯域幅の使用およびメモリコントローラーの効率が改善されます。
- グローバルメモリとの読み出しと書き込みの両方に対して最大長バーストを推論するような方法でアプリケーションコードを記述します。
AXI ポートが停止する前に維持可能な未処理のメモリ要求の数を設定します。
- 未処理の要求の数を適切に設定すると、システムが複数のメモリ要求を送信してから停止できます。このように要求をパイプライン処理しておくと、追加の BRAM/URAM リソースは必要になりますが、システムがメモリレイテンシの一部を隠せるようになります。