AI エンジン/PL パフォーマンスのデバッグに関する推奨事項は、次のとおりです。
-
AI エンジン グラフを小さいグラフに分割して、シリコン上でのボトルネックを解析します。次に例を示します。
- グラフで AI エンジン および PL 内にカーネルがある場合、グラフをサブグラフに分割し、機能とパフォーマンスを検証します。この方法を使用すると、パフォーマンスのボトルネックとなっているエリアを特定できます。
- 計算カーネル (AI エンジン または PL 内) が複数の AXI4 ストリームからデータを受信する場合、異なるストリームのデータ到着時間にばらつきがあるために、カーネルのパフォーマンスが低下することがあります。これは、バック プレッシャーが原因であるか、またはグラフの前のカーネルにおける計算の複雑性が異なることが原因である可能性があります。グラフをカーネル レベルで分割し、すべてのストリームで最適なパフォーマンスが得られるかを確認できます。
注記: または、カーネル レベルのパフォーマンス計測およびデバッグを使用して、ボトルネックを解析することもできます。 - AI エンジン グラフを単純なパススルー システムに置き換えます。
- イベント トレース デバッグ機能を使用して、異なるカーネルのメモリ ストールをカウントします。詳細は、 『AI エンジン ツールおよびフロー ユーザー ガイド』 (UG1076) のこのセクションを参照してください。