アプリケーション アーキテクチャが確定して AI エンジンと PL の分割が完了したら、次に AI エンジン アプリケーションを開発します。aiesimulator
のトレース プロファイリング機能を使用して、アプリケーション パフォーマンスを計測できます。aiesimulator
の出力を使用してパフォーマンスを計測することもできます。
次に、パフォーマンスを (終了時間 - 開始時間)/サンプル数として計測する例を示します。
- 各行は、64b 値 (2 つの cint16) を示します。51200 個の 64b 値 (102400 個の 32b サンプル) があります。
- スループット = 102400/(182452500 ps - 5790 ns) サンプル/s = 579.636 MSps
1 T 5790 ns
2 0 0 0 0
3 T 5792500 ps
4 0 0 0 0
5 T 5795 ns
6 0 0 0 0
7 T 5797500 ps
8 0 0 0 0
9 T 5800 ns
...
...
...
102495 -5107 2007 -32768 -18047
102496 T 182450 ns
102497 -25374 -19023 3957 3067
102498 T 182452500 ps
102499 TLAST
102500 18230 14818 11355 -5427
AI エンジンのパフォーマンスのボトルネックをさらに解析するため、AMD では、AI エンジン トレースおよびプロファイル オプションを使用して aiesimulator
またはハードウェア エミュレーションを実行することをお勧めします。トレースおよびプロファイル データを含むシミュレーション実行に生成された実行サマリ ファイルは、Vitis アナライザーで開くことができます。これにより生成されるトレース ビューとプロファイル ビューは、パフォーマンスの根本的な原因を特定するのに役立ちます。詳細は、
『AI エンジン ツールおよびフロー ユーザー ガイド』
(UG1076) のこのセクションを参照してください。
また、AI エンジン ランタイム イベント API を使用して、AI エンジン グラフの帯域幅、スループット、およびレイテンシに関する詳細なプロファイリング データを取得することもできます。詳細は、 『AI エンジン ツールおよびフロー ユーザー ガイド』 (UG1076) のこのセクションを参照してください。