パフォーマンスを最大限にするための設定

パフォーマンスを最大限にするための設定 - 2023.2 日本語

Versal アダプティブ SoC システム統合および検証設計手法ガイド (UG1388)

Document ID

UG1388

Release Date

2023-11-15

Version

2023.2 日本語

CPM を使用する場合にパフォーマンスを最大限にするには、次の設定を考慮する必要があります。

マスター AXI4 ポート

2 つの AXI4 MM ポートがあるので、それに応じてパケットのバランスを取り、両方のポートでバス使用率を最大化する必要があります。

使用する状況:
- PCIe リンクの合計スループットを計算します。これは、PCIe リンク速度 × PCIe リンク幅です。
- 1 つのポート上の AXI4 MM ポートのスループットを計算します。これは、128 ビット × CPMTOPSWCLK 周波数 (CPM GUI で選択、スピードグレードに依存します。デバイス/シリコンのデータシートを参照してください。
- PCIeリンクのスループットが AXI4 MM ポートのスループットより大きい場合は、両方のポートを使用する必要があります。
  注記: 帯域幅がほぼ同じである場合は、次の注意事項と、両方のポートを使用する場合のデザインの複雑性を考慮してください。
  - PCIe リンクには、パケットサイズ、最大ペイロードサイズ、および最大読み出し要求サイズの設定に応じて、通常約 20 ～ 25% の TLP オーバーヘッドがあります。アライメントされていないアドレス転送およびホストメモリの分散も、DMA 転送が非効率になるため、この数に影響する可能性があります。
  - NoC には、書き込み側にはメタデータ挿入のため通常約 6% のオーバーヘッドがありますが、読み出し側はほぼ最適です。
  - DDR メモリを使用する場合は、トラフィックパターンおよび DDR のバンク、列、行の設定によって、追加のオーバーヘッドが発生することがあります。
使用方法:
- パケットを 2 つのポートに分割することはできません。AXI4 ID および PCIe タグの順序付けによる HOL (Head of Line) ブロッキングを回避するために、ポートはできるだけ個別に動作させる必要があります。
  
  QDMA
  
  トラフィックをキュー ID に基づいて分割します。一部のキューを AXI4-MM0 を使用するよう割り当て、残りを AXI4-MM1 を使用するよう割り当てます。
  
  XDMA
  
  トラフィックは、DMA チャネル ID に基づいて自動的に分割されます。偶数 DMA チャネルは AXI4-MM0 に、奇数 DMA チャネルは AXI4-MM1 に配線されます。
  
  AXI4 ブリッジ
  
  1 つのポート AXI4-MM0 のみを使用します。そのため、パフォーマンスは AXI4 MM ポートのスループットで制限され、PCIe リンクスループットの最大値には達しない場合があります。

スレーブ AXI4 MM ポート

AXI4 MM ポートは 1 つだけなので、このポートを介するパフォーマンスは AXI4 MM ポートのスループットで制限され、PCIe リンクスループットの最大値には達しない場合があります。

マスターおよびスレーブ AXI4-ST ポート

このモードでは、CPM では直接 PL に AXI4-ST ポートのみを使用できるので、ユーザーは CPM または PCIe PL IP からの AXI4-ST インターフェイスと同じ周波数およびデータバス幅でデザインを動作させることのみが必要です。

PL PCIe では AXI4-ST ポートのみを使用可能なので、ユーザーは CPM または PCIe PL IP からの AXI4-ST インターフェイスと同じ周波数およびデータバス幅でデザインを動作させることのみが必要です。