ハードウェアエミュレーションの速度と精度

ハードウェアエミュレーションの速度と精度 - 2023.2 日本語

Vitis 統合ソフトウェアプラットフォームの資料: アプリケーションアクセラレーション開発 (UG1393)

Document ID

UG1393

Release Date

2023-12-13

Version

2023.2 日本語

ハードウェアエミュレーションは、SystemC と RTL 協調シミュレーションを組み合わせて使用して、シミュレーションの精度と速度のバランスを調整します。SystemC モデルは、純粋関数モデルとパフォーマンス概要モデルを組み合わせたモデルです。ハードウェアエミュレーションは、ハードウェア精度を 100% を模倣するわけではないので、エミュレーションの実行とハードウェア上でのアプリケーションの実行の間には、動作に多少の違いがあるはずです。これにより、アプリケーションのパフォーマンスに大きな違いが生じる可能性があり、場合によっては、機能の違いを確認できることもあります。

ハードウェアとの機能的な違いは、通常、競合状態やデザイン内の予測不可能な動作になるので、ハードウェアで発生する問題がハードウェアエミュレーションで再現できるとは限りません。ただし、ホストとアクセラレータ間またはアクセラレータとメモリ間の送受信に関連するほとんどの動作は、ハードウェアエミュレーションで再現可能です。このため、ハードウェアエミュレーションは、ハードウェア上で実行する前にアクセラレータの問題をデバッグするための優れたツールといえます。

次の表は、ハードウェアプラットフォームとその精度レベルを模倣するために使用されるモデルを示しています。

表 1. ハードウェアプラットフォーム
ハードウェア機能	説明
ホストからカードへの PCIe® 接続と DMA (XDMA、SlaveBridge)	データセンタープラットフォームでは、PCIe を使用した x86 ホストサーバーへの接続は純粋関数モデルとして実行されるので、パフォーマンスモデリングはありません。したがって、PCIe 帯域幅に関連する問題は、ハードウェアエミュレーションの実行に反映されません。
AMD UltraScale™ DDR メモリ、SmartConnect	DDR メモリコントローラー、AXI SmartConnect、およびその他のデータパス IP 用の SystemC モデルでは、通常スループットは概算です。通常、ハードウェア IP の正確な遅延はモデル化されません。このモデルを使用すると、アプリケーションやアクセラレータカーネルを変更する際の相対的なパフォーマンス傾向を測定できます。
AI エンジン	AI エンジン SystemC モデルはサイクル概算ですが、サイクル精度は 100% にはなりません。AI エンジンシミュレータとハードウェアエミュレーション間では共通のモデルが使用されるため、2 つのステージは妥当に比較できます。
AMD Versal™ NoC および DDR モデル	Versal NoC および DDR SystemC モデルは、サイクル概算です。
Arm Processing Subsystem (PS、CIPS)	Arm PS は、純粋関数の実行モデルである QEMU を使用してモデル化されます。詳細は、QEMU を参照してください。
ユーザーカーネル (アクセラレータ)	ハードウェアエミュレーションは、ユーザーアクセラレータに RTL を使用します。次のように、アクセラレータの動作自体は 100% 正確です。ただし、アクセラレータはほかの概算モデルに囲まれています。
その他の I/O モデル	ハードウェアエミュレーションには、エミュレーションプロセスとインターフェイスできる汎用 Python または C ベースのトラフィックジェネレーターがあります。デザインの I/O を模倣する AXI プロトコルレベルで抽象トラフィックを生成できます。これらのモデルは抽象的なものであるため、特定のハードウェアボードで見られた問題はハードウェアエミュレーションでは表示されません。

ハードウェアエミュレーションは RTL 協調シミュレーションを実行モデルとして使用するため、実行速度は実際のハードウェアと比較してかなり遅くなります。AMDでは、小さなデータバッファーを使用することをお勧めしています。たとえば、コンフィギャラブルなベクター加算があり、ハードウェアで 1024 のエレメントの vadd を実行している場合、エミュレーションでは 16 のエレメントに制限できます。これにより、アクセラレータを使用してアプリケーションをテストしつつ、妥当な時間内に実行を完了できます。