AI エンジン/PL と AI エンジン/NoC インターフェイスのパフォーマンス比較

AI エンジン/PL と AI エンジン/NoC インターフェイスのパフォーマンス比較 - 2023.2 日本語

AI エンジンカーネルおよびグラフプログラミングガイド (UG1079)

Document ID

UG1079

Release Date

2023-12-04

Version

2023.2 日本語

AI エンジンアレイインターフェイスは、PL インターフェイスタイルと NoC インターフェイスタイルで構成されます。AI エンジンアレイインターフェイスタイルは、次の 2 つの高パフォーマンスインターフェイスを管理します。

AI エンジンから PL
AI エンジンから NoC

次の図に、AI エンジンアレイインターフェイスの構造を示します。

図 1. AI エンジンアレイインターフェイスのトポロジ

1 つの AI エンジン - PL インターフェイスには、PL から AI エンジンへの 8 つのストリームと、AI エンジンから PL への 6 つのストリームがあります。次の表に、1 つの AI エンジン - PL インターフェイスタイル容量を示します。

表 1. AI エンジンアレイインターフェイス - PL インターフェイスの帯域幅パフォーマンス
接続の種類	接続の数	データ幅 (ビット)	クロックドメイン	接続あたりの帯域幅 (GB/s)	合計帯域幅 (GB/s)
PL → AI エンジンアレイインターフェイス	8	64	PL (500 MHz)	4	32
AI エンジンアレイインターフェイス → PL	6	64	PL (500 MHz)	4	24

注記: このセクションでの帯域幅の計算では、例として、-1L スピードグレードのデバイスの公称 1 GHz AI エンジンクロックで、VCCINT = 0.70V、PL インターフェイスは AI エンジンの 1/2 の周波数で動作すると想定しています。

PL インターフェイスタイルと NoC インターフェイスタイルの数は、デバイスによって異なります。たとえば VC1902 デバイスには、AI エンジンアレイインターフェイスタイルが 50 列ありますが、PL インターフェイスに使用できるのは 39 個のアレイインターフェイスタイルのみです。したがって、PL インターフェイスの合計帯域幅はおよそ次のようになります。

AI エンジンから PL: 24 GB/s * 39 = 0.936 TB/s
PL から AI エンジン: 32 GB/s * 39 =1.248 TB/s

その他のデバイスおよび異なるスピードグレードにおける、PL インターフェイスに使用可能なアレイインターフェイスタイルの数と、AI エンジン - PL インターフェイスの合計帯域幅は、『Versal AI コアシリーズデータシート: DC 特性および AC スイッチ特性』 (DS957) に記載されています。

input_gmio/output_gmio 属性は、AI エンジン - NoC インターフェイスタイルの DMA を使用します。DMA には、AI エンジンからの 32 ビット入力ストリームが 2 つ、AI エンジンへの 32 ビットストリームが 2 つあります。さらに、NoC NMU への 128 ビットメモリマップド AXI マスターインターマスターフェイスが 1 つあります。次の表に、1 つの AI エンジン - NoC インターフェイスタイルのパフォーマンスを示します。

表 2. AI エンジン - NoC インターフェイスタイルの帯域幅パフォーマンス
接続タイプ	接続数	接続あたりの帯域幅 (GB/s)	合計帯域幅 (GB/s)
AI エンジン/DMA 間	2	4	8
DMA - NoC	1	16	16
DMA - AI エンジン	2	4	8
NoC - DMA	1	16	16

AI エンジン - NoC インターフェイスタイルの数は、デバイスによって異なります。たとえば VC1902 デバイスには、16 個の AI エンジン - NoC インターフェイスタイルがあります。したがって、NoC インターフェイスの合計帯域幅はおよそ次のようになります。

AI エンジンから PL: 8 GB/s * 16 = 128 GB/s
PL から AI エンジン: 8 GB/s * 16 =128 GB/s

DDR メモリにアクセスする際は、プラットフォームの統合 DDR メモリコントローラー (DDRMC) の数により DDR メモリの読み出しおよび書き込みのパフォーマンスが制限されます。たとえば、VC1902 デバイスの 4 つの DDRMC がすべて使用されると、DDR メモリへのアクセスの制限は次のようになります。

3200 Mb/s * 64 bit * 4 DDRMCs / 8 = 102.4 GB/s

NoC を介して DDR メモリにアクセスする input_gmio/output_gmio のパフォーマンスは、水平および垂直 NoC の NoC レーンの数、NoC 間の構成、および QoS によりさらに制限されます。DDR メモリの読み出しおよび書き込みの効率は、アクセスパターンおよびその他のオーバーヘッドの影響を大きく受けます。NoC、メモリコントローラーの使用、パフォーマンス値の詳細は、『Versal Adaptive SoC Programmable Network on Chip and Integrated Memory Controller LogiCORE IP 製品ガイド』 (PG313) を参照してください。

AI エンジンからまたは AI エンジンへの 1 つの接続には、input_plio/output_plio および input_gmio/output_gmio に 4 GB/s の帯域幅制限があります。次の表に、input_plio/output_plio または input_gmio/output_gmio を使用する利点と欠点の一部を示します。

表 3. input_plio/output_plio と input_gmio/output_gmio の比較
	input_plio/output_plio	input_gmio/output_gmio
利点	AI エンジン - PL インターフェイスストリームの方が数が多いので、合計帯域幅も大きい異なるストリーム接続間に干渉なしパケットスイッチングをサポート	PL リソースは不要タイミングクロージャ要件なし
欠点	デバイスの 1 つの領域にあるストリーム接続が多すぎると、密集が発生する可能性あり最高のパフォーマンスを達成するには、タイミングクロージャが必要	使用可能な input_gmio/output_gmio ポートが少ない合計帯域幅が狭い複数の input_gmio/output_gmio ポートが帯域幅を競合