Vitis を使用したデータセンターアクセラレーションのベストプラクティス

Vitis を使用したデータセンターアクセラレーションのベストプラクティス - 2023.2 日本語

Vitis 統合ソフトウェアプラットフォームの資料: アプリケーションアクセラレーション開発 (UG1393)

Document ID

UG1393

Release Date

2023-12-13

Version

2023.2 日本語

Vitis コア開発キットでアプリケーションコードおよびハードウェア関数を開発する際は、次の事項を考慮してください。

アクセラレーションの設計手法については、Vitis ソフトウェアプラットフォームでのデータセンターアプリケーションのアクセラレーションを参照してください。
入力および出力のデータ量に対する計算時間の比率が高い関数をアクセラレーションします。FPGA カーネルを使用すると計算時間は大幅に短縮されますが、データ量により転送レイテンシが追加されます。
自己完結型の制御構造を持ち、ホストとの定期的な同期を必要としない関数をアクセラレーションします。
ホストからグローバルデバイスメモリに大型のデータブロックを転送します。小型の転送を複数実行するよりも、1 つの大型転送を実行する方が効率的です。帯域幅テストを実行して最適な転送サイズを検出します。
ホストにデータをコピーするのは、必要なときのみにします。カーネルによりグローバルメモリに書き込まれたデータは、別のカーネルで直接読み出すことができます。メモリリソースには、PLRAM (サイズは小さいが最短レイテンシで高速アクセスが可能)、HBM (中程度のサイズで多少のレイテンシあり)、DDR (サイズは大きいがレイテンシは最長になるので低速アクセス) などが含まれます。
複数のグローバルメモリリソースを活用して、帯域幅を複数のカーネルに均等に分配します。
512 ビット幅のバーストを実行して、カーネルとグローバルメモリ間の帯域幅を最大限にします。
カーネル内のローカルメモリにデータをキャッシュします。ローカルメモリにアクセスする方が、グローバルメモリにアクセスするよりもかなり高速です。
ホストアプリケーションで、イベントおよびノンブロッキングトランザクションを使用して、複数の要求を並列にオーバーラップさせて実行します。
FPGA では、タスクレベルの並列処理を活用できるよう異なるカーネルを使用し、データレベルの並列処理を活用できるよう複数の CU を使用して、複数のタスクを並列実行することによりパフォーマンスをさらに向上します。
カーネル内でデータフローを使用したタスクレベルと、ループ展開とループのパイプラインを使用した命令レベルの並列処理を活用して、スループットを最大にします。
一部のAMD FPGA には、複数のパーティション (SLR (Super Logic Region) とも呼ばれる) が含まれます。カーネルをカーネルがアクセスするグローバルメモリバンクと同じ SLR に配置します。
ソフトウェアおよびハードウェアエミュレーションを使用してコードの周波数を検証し、正しく機能することを確認します。
Vitis ガイダンスレポートを頻繁に参照します。このレポートには、プロジェクトについて明確で実用的なアドバイスが示されます。