AXI パフォーマンスのケーススタディ

AXI パフォーマンスのケーススタディ - 2023.2 日本語

Vitis 高位合成ユーザーガイド (UG1399)

Document ID

UG1399

Release Date

2023-12-18

Version

2023.2 日本語

はじめに

このケーススタディの目的は、HLS メトリックを使用して読み出し/書き込みのループ/関数のスループットを向上させるため最適化方法を手順を追って示すことです。これらの最適化では、グローバルメモリからカーネルへの効率的なデータ転送を実行することで、システムのカーネル時間とスループットを向上させます。次の transfer_kernel の例では、DDR の単純な (可変サイズで NUM_ITERATIONS の) 読み出し/書き込みを実行します。

ヒント: ホストコード (表示されていません) は、データを転送し、カーネルを順序どおりのキューに入れるだけです。

1 #include "config.h"
 2 #include "assert.h"
 3 extern "C" {
 4    void transfer_kernel(wd* in,wd* out, const int size, const int iter ) {
 5 ···
 6        wd buf[256];
 7        int off = (size/16);
 8  
 9        read_loop: for (int i = 0; i <off; i++)
10        {
11           buf[i] = in[i];
12        }
13
14     write_loop: L1: for (int i = 0; i < iter; i++) {
15        L2: for (int j = 0; j <off; j++) {
16        #pragma HLS PIPELINE II=1
17           out[j+off*i] = buf[j];
18           }
19        }
20 ···
21    }
22 }

このケーススタディは、次の 4 つの手順に分かれています。

ポート幅を 512 ビット幅でカーネルの実行時間のベースラインを設定
レイテンシパラメーターを変更してパフォーマンスを向上
書き込みループの自動バースト推論を改善
これ以上の複数ポートと未処理の書き込み数を使用した改善はなし

手順 1: 512 ビットのポート幅でカーネルのベースラインを設定

デフォルト設定を使用してカーネル時間のベースラインを設定します。この実行中、自動バーストは読み出しおよび書き込みループに対して次を推論します。

ツールが連続するメモリアクセスパターンを予測できるため、読み出しループはパイプラインバーストを達成します。このため、可変サイズの DDR からの読み出し要求がパイプライン処理されます。
書き込み外部ループの L1 は、シーケンシャルバーストを取得します。これは、コンパイラがすべての組み合わせを繰り返し、L2 ループの開始前に L1 ループに if 条件を挿入するかどうかを判断するからです (コンパイル時にサイズが不明であるため)。同時に、最も内側のループ L2 がパイプラインバーストを達成します。L2 ループは可変サイズの書き込み要求を要求し、L1 は L2 ループのすべてのデータが DDR から戻って L1 の次の反復を開始するまで待機します。

アプリケーションを構築して実行した後は、Vitis アナライザーツールを使用してパフォーマンスを評価し、ビルドプロセスまたは実行サマリによって生成されたレポートを表示できます。Vitis HLS からの合成レポートに表示されるバーストサマリを確認します。読み出しループおよび書き込みループのバーストが成功したか、エラーになったかを確認します。

図 1. 合成レポート - バーストサマリ

Vitis アナライザーでは、プロファイルサマリおよびタイムライントレースレポートも、FPGA アクセラレーションアプリケーションのパフォーマンスを解析するのに役立ちます。プロファイルサマリでは、Kernels & Compute Unit: Kernel Execution にベースラインビルドで transfer_kernel が必要とする合計時間がレポートされます。

図 2. プロファイルサマリ - カーネルの実行

手順 2: パフォーマンスレイテンシの改善

Vitis HLS はデフォルトの 64 カーネルサイクルのレイテンシを使用しますが、それが長すぎる場合もあります。レイテンシはシステムの特性によって異なります。この例では、レイテンシはデフォルトから 21 カーネルサイクルに減少しています。次の例に示すようにコードを変更し、INTERFACE プラグマまたは指示子を使用して、レイテンシを指定します。

1 #include "config.h"
 2 #include "assert.h"
 3 extern "C" {
 4    void transfer_kernel(wd* in,wd* out, const int size, const int iter ) {
 5    #pragma HLS INTERFACE m_axi port=in0_index offset=slave latency=21
 6    #pragma HLS INTERFACE m_axi port=out offset=slave latency=21

 7 ...

アプリケーションを構築して実行したら、Vitis アナライザーを使用して、ビルドプロセスまたは実行サマリによって生成されたレポートを表示できます。Vitis HLS の合成レポートの HW Interface の表で、指定したレイテンシが適用されていることを確認します。

図 3. 合成レポート - HW インターフェイス

Burst Summary でそのプロセスが成功したか、エラーになったを確認します。

図 4. 合成レポート - バーストサマリ 2

プロファイルサマリレポートの「Kernel Execution」で、インターフェイスのレイテンシを設定することでパフォーマンスが向上したことを確認します。

図 5. プロファイルサマリ - カーネルの実行 2

手順 3: 書き込みループの自動バースト推論を改善

コンパイル時にサイズとループトリップ数が不明なため、コンパイラの自動バースト推論の見積もりは不必要に悪くなります。次に示すようにコードを変更すると、コンパイラがパイプラインバーストを推論できます。

1 #include "config.h"
  2 #include "assert.h"
  3 extern "C" {
  4    void transfer_kernel(wd* in,wd* out, const int size, const int iter ) {
  5    #pragma HLS INTERFACE m_axi port=in offset=slave latency=21
  6    #pragma HLS INTERFACE m_axi port=out offset=slave latency=21
  7
  8       int k=0;
  9       wd buf[256];
 10       int off = (size/16);
 11 
 12       read_loop: for (int i = 0; i <off; i++)
 13       {
 14          buf[i] = in[i];
 15       }
 16
 17       write_loop: for (int j = 0; j <off*iter; j++) {
 18       #pragma HLS PIPELINE II=1
 19          out[k++] = buf[j%off];
 20       }
 21    }
 22 }

アプリケーションを構築して実行したら、Vitis アナライザーを使用して、ビルドプロセスまたは実行サマリによって生成されたレポートを表示できます。合成レポートからは、コンパイラへのバーストヒントによって書き込みループのシーケンシャルバーストが修正されたことが確認できます。Burst and Widening Missed というメッセージは、ポートを 512 ビットに拡張することに関連しています。この例では既にポート幅 512 を使用しているため、無視して問題ありません。コードで幅が 512 ビットになっていない場合は、これらのメッセージの示す問題を解決する必要があります。

図 6. 合成レポート - バーストサマリ 3

プロファイルサマリレポートの「Kernel Execution」からは、手順 2 のレイテンシ変更と現在の手順の書き込みループのパイプラインバーストの結果、パフォーマンスが改善したことがわかります。

図 7. プロファイルサマリ - カーネルの実行 3

概要

Vitis HLS インターフェイスメトリックから実行できるその他の改善はありません。ケーススタディの例では、同時読み出しまたは書き込みがないため、複数のポートをターゲットにするのは、この場合には役立ちません。この例では、ツールが最大スループットのパイプラインバーストを達成しているため、未処理の読み出しと書き込みの数も無視できます。カーネル時間からは、これ以上の改善は確認できません。

ケーススタディのように、効率的な load-store 関数のインプリメンテーションは、ポート幅、バーストアクセス、レイテンシ、複数ポート、および未処理の読み取りと書き込みの数などの HLS インターフェイスメトリックに依存します。AMDでは、システムパフォーマンスを向上させるために次のガイドラインを推奨します。

ポート幅: ポートのデータ型として hls::vector または ap_(u)int<512> を使用して、インターフェイスのポート幅 (各 AXI ポートのビット幅) を最大化します。
複数ポート: 同時メモリの読み出し/書き込みを解析し、同時アクセス用の専用/独立ポートを備えます。
パイプラインバースト: AXI レイテンシパラメーターはパイプラインバーストに影響を与えません。パフォーマンスを大幅に向上させることができるパイプラインバーストを達成するようにコードを記述することをお勧めします。
シーケンシャルバースト: AXI レイテンシパラメーターは、シーケンシャルバーストに大きな影響を与え、ツールのデフォルトレイテンシからレイテンシ数を減少させることで、パフォーマンスを向上します。
未処理の数: ほとんどのバースト長が 16 以上の場合、デフォルトの未処理の数 (num outstanding) で十分です。AMD では、バーストサイズが 16 未満の場合は、デフォルト (=16) から未処理の数のサイズを 2 倍にすることをお勧めしています。
データの並べ替え: パイプラインバーストの達成は常に推奨されますが、メモリアクセスパターンのために、コンパイラがシーケンシャルバーストのみを達成できる場合もあります。データをメモリに保存するさまざまな方法を検討して、パフォーマンスを改善することもできます。たとえば、DRAM 内のデータに列優先順でアクセスすると、効率性がかなり劣ることがあります。カーネルに専用のデータムーバーをインプリメントするよりも、ソフトウェア内のデータを置き換えて、行優先順で格納した方が良い場合があり、ハードウェアアクセスパターンをかなりシンプルにできます。

はじめに

手順 1: 512 ビットのポート幅でカーネルのベースラインを設定

手順 2: パフォーマンス レイテンシの改善

手順 3: 書き込みループの自動バースト推論を改善

概要

手順 2: パフォーマンスレイテンシの改善