AI エンジン/PL と AI エンジン/NoC インターフェイスのパフォーマンス比較 - 2023.2 日本語

AI エンジン カーネルおよびグラフ プログラミング ガイド (UG1079)

Document ID
UG1079
Release Date
2023-12-04
Version
2023.2 日本語

AI エンジン アレイ インターフェイスは、PL インターフェイス タイルと NoC インターフェイス タイルで構成されます。AI エンジン アレイ インターフェイス タイルは、次の 2 つの高パフォーマンス インターフェイスを管理します。

  • AI エンジンから PL
  • AI エンジンから NoC

次の図に、AI エンジン アレイ インターフェイスの構造を示します。

図 1. AI エンジン アレイ インターフェイスのトポロジ

1 つの AI エンジン - PL インターフェイスには、PL から AI エンジンへの 8 つのストリームと、AI エンジンから PL への 6 つのストリームがあります。次の表に、1 つの AI エンジン - PL インターフェイス タイル容量を示します。

表 1. AI エンジン アレイ インターフェイス - PL インターフェイスの帯域幅パフォーマンス
接続の種類 接続の数 データ幅 (ビット) クロック ドメイン 接続あたりの帯域幅 (GB/s) 合計帯域幅 (GB/s)
PL → AI エンジン アレイ インターフェイス 8 64 PL

(500 MHz)

4 32
AI エンジン アレイ インターフェイス → PL 6 64 PL

(500 MHz)

4 24
注記: このセクションでの帯域幅の計算では、例として、-1L スピード グレードのデバイスの公称 1 GHz AI エンジン クロックで、VCCINT = 0.70V、PL インターフェイスは AI エンジンの 1/2 の周波数で動作すると想定しています。

PL インターフェイス タイルと NoC インターフェイス タイルの数は、デバイスによって異なります。たとえば VC1902 デバイスには、AI エンジン アレイ インターフェイス タイルが 50 列ありますが、PL インターフェイスに使用できるのは 39 個のアレイ インターフェイス タイルのみです。したがって、PL インターフェイスの合計帯域幅はおよそ次のようになります。

  • AI エンジンから PL: 24 GB/s * 39 = 0.936 TB/s
  • PL から AI エンジン: 32 GB/s * 39 =1.248 TB/s

その他のデバイスおよび異なるスピード グレードにおける、PL インターフェイスに使用可能なアレイ インターフェイス タイルの数と、AI エンジン - PL インターフェイスの合計帯域幅は、 『Versal AI コア シリーズ データシート: DC 特性および AC スイッチ特性』 (DS957) に記載されています。

input_gmio/output_gmio 属性 は、AI エンジン - NoC インターフェイス タイルの DMA を使用します。DMA には、AI エンジンからの 32 ビット入力ストリームが 2 つ、AI エンジンへの 32 ビットストリームが 2 つあります。さらに、NoC NMU への 128 ビット メモリ マップド AXI マスター インターマスターフェイスが 1 つあります。次の表に、1 つの AI エンジン - NoC インターフェイス タイルのパフォーマンスを示します。

表 2. AI エンジン - NoC インターフェイス タイルの帯域幅パフォーマンス
接続タイプ 接続数 接続あたりの帯域幅 (GB/s) 合計帯域幅 (GB/s)
AI エンジン/DMA 間 2 4 8
DMA - NoC 1 16 16
DMA - AI エンジン 2 4 8
NoC - DMA 1 16 16

AI エンジン - NoC インターフェイス タイルの数は、デバイスによって異なります。たとえば VC1902 デバイスには、16 個の AI エンジン - NoC インターフェイス タイルがあります。したがって、NoC インターフェイスの合計帯域幅はおよそ次のようになります。

  • AI エンジンから PL: 8 GB/s * 16 = 128 GB/s
  • PL から AI エンジン: 8 GB/s * 16 =128 GB/s

DDR メモリにアクセスする際は、プラットフォームの統合 DDR メモリ コントローラー (DDRMC) の数により DDR メモリの読み出しおよび書き込みのパフォーマンスが制限されます。たとえば、VC1902 デバイスの 4 つの DDRMC がすべて使用されると、DDR メモリへのアクセスの制限は次のようになります。

  • 3200 Mb/s * 64 bit * 4 DDRMCs / 8 = 102.4 GB/s

NoC を介して DDR メモリにアクセスする input_gmio/output_gmio のパフォーマンスは、水平および垂直 NoC の NoC レーンの数、NoC 間の構成、および QoS によりさらに制限されます。DDR メモリの読み出しおよび書き込みの効率は、アクセス パターンおよびその他のオーバーヘッドの影響を大きく受けます。NoC、メモリ コントローラーの使用、パフォーマンス値の詳細は、 『Versal Adaptive SoC Programmable Network on Chip and Integrated Memory Controller LogiCORE IP 製品ガイド』 (PG313) を参照してください。

AI エンジンからまたは AI エンジンへの 1 つの接続には、input_plio/output_plio および input_gmio/output_gmio に 4 GB/s の帯域幅制限があります。次の表に、input_plio/output_plio または input_gmio/output_gmio を使用する利点と欠点の一部を示します。

表 3. input_plio/output_plio と input_gmio/output_gmio の比較
  input_plio/output_plio input_gmio/output_gmio
利点
  • AI エンジン - PL インターフェイス ストリームの方が数が多いので、合計帯域幅も大きい
  • 異なるストリーム接続間に干渉なし
  • パケット スイッチングをサポート
  • PL リソースは不要
  • タイミング クロージャ要件なし
欠点
  • デバイスの 1 つの領域にあるストリーム接続が多すぎると、密集が発生する可能性あり
  • 最高のパフォーマンスを達成するには、タイミング クロージャが必要
  • 使用可能な input_gmio/output_gmio ポートが少ない
  • 合計帯域幅が狭い
  • 複数の input_gmio/output_gmio ポートが帯域幅を競合