カーネルのキュー追加のオーバーヘッドの削減

カーネルのキュー追加のオーバーヘッドの削減 - 2021.2 Japanese

Vitis 統合ソフトウェアプラットフォームの資料: アプリケーションアクセラレーション開発 (UG1393)

Document ID

UG1393

Release Date

2022-03-29

Version

2021.2 Japanese

OpenCL API 実行モデルでは、データ並列とタスク並列のプログラミングモデルがサポートされます。OpenCL ホストは通常、異なるカーネルを複数回呼び出す必要があります。これらの呼び出しは、特定のシーケンスまたは順不同コマンドキューのいずれかでコマンドキューに入れられます。このあと、計算リソースとタスクデータがどれだけ使用可能かによって、デバイス上での実行がスケジュールされます。

カーネル呼び出しは、clEnqueueTask を使用してコマンドキューで実行されるようにキューに入ります。送信プロセスがホストプロセッサで実行されます。送信元が、カーネル引数をデバイス上で実行されているアクセラレータに転送した後、カーネル実行を呼び出します。送信元は、下位レベルのザイリンクスランタイム (XRT) ライブラリを使用して、カーネル引数を転送し、計算を開始するためのトリガーコマンドを発行します。アクセラレータへのコマンドおよび引数の送信のオーバーヘッドは、カーネルの引数セットの数によって 30 µs ～ 60 µs になります。このオーバーヘッドの影響は、カーネルを実行する必要のある回数と clEnqueueTask への呼び出しを最低限に抑えると減らすことができます。理想的なのは、すべての計算が clEnqueueTask の呼び出し 1 つで終了するようにすることです。

データをバッチ処理してカーネルを 1 回呼び出すと、clEnqueueTask への呼び出しを最小限に抑えることができます。ループは元のインプリメンテーションにラップされ、複数のエンキュー呼び出しのオーバーヘッドを回避できます。また、多数の小さなデータパケットではなく、少数の大きなデータパケットを転送することで、ホストとアクセラレータ間のデータ転送パフォーマンスを向上させることもできます。カーネル実行のオーバーヘッド削減の詳細は、カーネル実行を参照してください。

次の例は、指定された作業またはデータサイズを処理する単純なカーネルを示しています。

#define SIZE 256
extern "C" {
    void add(int *a , int *b, int inc){
        int buff_a[SIZE];
        for(int i=0;i<size;i++)
        {
            buff_a[i] = a[i];
        }
        for(int i=0;i<size;i++)
        {
            b[i] = a[i]+inc;
        }
    }
}

次の例は、バッチデータを処理するように最適化された同じ単純なカーネルを示しています。num_batches 引数によっては、カーネルは 1 回の呼び出しで 256 のサイズの入力を複数処理し、複数の clEnqueueTask 呼び出しのオーバーヘッドを回避できます。ホストアプリケーションは、データとバッファーを

SIZE *
                num_batches

のチャンク単位で割り当てるように変更し、メモリ割り当てとホストグローバルメモリおよびデバイスメモリ間のデータ転送をバッチ処理します。

#define SIZE 256
extern "C" {
    void add(int *a , int *b, int inc, int num_batches){
        int buff_a[SIZE];
        for(int j=0;j<num_batches;j++)
        {
            for(int i=0;i<size;i++)
            {
                buff_a[i] = a[i];
            }
            for(int i=0;i<size;i++)
            {
                b[i] = a[i]+inc;
            }
       }   
    }
}