プロファイルサマリの解釈

プロファイルサマリの解釈 - 2019.2 Japanese

Vitis 統合ソフトウェアプラットフォームの資料: アプリケーションアクセラレーション開発 (UG1393)

Document ID

UG1393

Release Date

2020-02-28

Version

2019.2 Japanese

プロファイルサマリには、OpenCL アプリケーションに役立つさまざまな統計が含まれ、アプリケーションの機能的なボトルネックの概要が表示されます。プロファイルサマリには、4 つのセクションから構成され、次の情報が表示されます。

Top Operations
- Top Data Transfer: Kernels and Global Memory: FPGA とデバイスメモリ間の最上位データ転送のプロファイルデータを表示します。
  - Device: デバイス名
  - Compute Unit: 計算ユニット名
  - Number of Transfers: デバイスで監視される書き込みおよび読み出し AXI トランザクションの合計
  - Average Bytes per Transfer: (読み出しバイト数合計 + 書き込みバイト数合計) / (読み出し AXI トランザクション数合計 + 書き込み AXI トランザクション数合計)
  - Transfer Efficiency (%): (転送ごとの平均バイト数) / min(4K, (メモリビット幅/8 * 256))
    AXI4 仕様では、最大バースト長が 256、最大バーストサイズが 4K バイトに制限されています。
  - Total Data Transfer (MB): (読み出しバイト数合計 + 書き込みバイト数合計) / 1.0E6
  - Total Write (MB): (書き込みバイト数合計) / 1.0E6
  - Total Read (MB): (読み出しバイト数合計) / 1.0E6
  - Transfer Rate (MB/s): (データ転送数合計) / (計算ユニットの合計時間)
- Top Kernel Execution
  - Kernel Instance Address: カーネルインスタンスのホストアドレス (16 進数)
  - Kernel: カーネル名
  - Context ID: ホストのコンテキスト ID
  - Command Queue ID: ホストのコマンドキュー ID
  - Device: カーネルが実行されたデバイスの名前 (フォーマット:<device>-<ID>)
  - Start Time (ms): 実行の開始時間 (ms)
  - Duration (ms): 実行期間 (ms)
  - Global Work Size: カーネルの NDRange
  - Local Work Size: カーネルのワークグループサイズ
- Top Memory Writes: Host and Device Global Memory
  - Buffer Address: バッファーのホストアドレス (16 進数)
  - Context ID: ホストのコンテキスト ID
  - Command Queue ID: ホストのコマンドキュー ID
  - Start Time (ms) : 書き込み転送の開始時間 (ms)
  - Duration (ms): 書き込み転送期間 (ms)
  - Buffer Size (KB): 書き込み転送サイズ (KB)
  - Writing Rate (MB/s): 書き込みレート = (バッファーサイズ) / (期間)
- Top Memory Reads: Host and Device Global Memory
  - Buffer Address: バッファーのホストアドレス (16 進数)
  - Context ID: ホストのコンテキスト ID
  - Command Queue ID: ホストのコマンドキュー ID
  - Start Time (ms): 読み出し転送の開始時間 (ms)
  - Duration (ms): 読み出し転送期間 (ms)
  - Buffer Size (KB): 読み出し転送サイズ (KB)
  - Reading Rate (MB/s): 読み出しレート = (バッファーサイズ) / (期間)
Kernels & Compute Units
- Kernel Execution (includes estimated device times): スケジュールおよび実行されたすべてのカーネルのプロファイルデータサマリを表示します。
  - Kernel: カーネル名
  - Number of Enqueues: カーネルがエンキューされる回数
  - Total Time (ms): すべてのエンキューのランタイム合計 (OpenCL 実行モデルで START から END まで測定)
  - Minimum Time (ms): すべてのエンキューの最小ランタイム
  - Average Time (ms): (合計時間) / (エンキュー数)
  - Maximum Time (ms): すべてのエンキューの最大ランタイム
- Compute Unit Utilization (includes estimated device times): FPGA のすべての計算ユニットのサマリプロファイルデータを表示します。
  - Device: デバイス名 (フォーマット: <device>-<ID>)
  - Compute Unit: 計算ユニット名
  - Kernel: 計算ユニットが関連付けられるカーネル
  - Global Work Size: カーネルの NDRange (フォーマットは x:y:z)
  - Local Work Size: ローカルワークグループサイズ (フォーマットは x:y:z)
  - Number of Calls: 計算ユニットが呼び出される回数
  - Total Time (ms): すべての呼び出しのランタイム合計
  - Minimum Time (ms): すべての呼び出しの最小ランタイム
  - Average Time (ms): (合計時間) / (ワークグループ数)
  - Maximum Time (ms): すべての呼び出しの最大ランタイム
  - Clock Frequency (MHz): アクセラレータに使用されるクロック周波数 (MHz)
Data Transfers
- Data Transfer: Host and Global Memory: ホストとデバイスメモリ間の PCI Express® リンクを介したすべての読み出しおよび書き込み転送のプロファイルデータを表示します。
  - Context:Number of Devices: コンテキスト ID およびコンテキスト内のデバイス数
  - Transfer Type: [READ] または [WRITE]
  - Number of Transfers: ホストデータ転送数
    注記: printf 転送が含まれる場合があります。
  - Transfer Rate (MB/s): (送信バイト数合計) / (合計時間 (µs))
    合計時間にはソフトウェアオーバーヘッドが含まれます。
  - Average Bandwidth Utilization (%): (転送レート) / (最大転送レート)
    最大転送レート = (256/8 バイト) * (300 MHz) = 9.6 GB/s
  - Average Size (KB): (送信された合計 KB) / (転送数)
  - Total Time (ms): 転送の合計時間
  - Average Time (ms): (合計時間) / (転送数)
- Data Transfer: Kernels and Global Memory: FPGA とデバイスメモリ間のすべての読み出しおよび書き込み転送のプロファイルデータを表示します。
  - Device: デバイス名
  - Compute Unit/Port Name: <計算ユニット名>/<ポート名>
  - Kernel Arguments: このポートに接続される引数のリスト
  - DDR Bank: このポートが接続される DDR バンク数
  - Transfer Type: [READ] または [WRITE]
  - Number of Transfers: デバイスで監視される AXI トランザクションの数
    注記: printf 転送が含まれる場合があります。
  - Transfer Rate (MB/s): (送信されたバイト数合計) / (計算ユニット合計時間)
    - 計算ユニットの合計時間 = 計算ユニットの合計実行時間
    - 送信バイト数合計 = すべてのトランザクションのバイト数合計
  - Average Bandwidth Utilization (%): (転送レート) / (0.6 * 最大転送レート)
    最大転送レート = (512/8 バイト) * (300 MHz) = 19200 MB/s
  - Average Size (KB): (送信された合計 KB) / (AXI トランザクション数)
  - Average Latency (µs): (全トランザクションのレイテンシ合計) / (AXI トランザクション数)
[OpenCL API Calls]: ホストアプリケーションで実行されるすべての OpenCL ホスト API 関数呼び出しのプロファイルデータを表示します。
- API Name: API 関数の名前 (例: clCreateProgramWithBinary、clEnqueueNDRangeKernel)
- Number of Calls: この API の呼び出し回数
- Total Time (ms): すべての呼び出しのランタイム合計
- Minimum Time (ms): すべての呼び出しの最小ランタイム
- Average Time (ms): (合計時間) / (呼び出し回数)
- Maximum Time (ms): すべての呼び出しの最大ランタイム
Kernel Internals
- Compute Units: Running Time and Stalls: 計算ユニットの実行時間 (マイクロ秒) と、その実行時間の停止時間の割合 (%) をレポートします。
  ヒント: Kernel Internals タブでは、時間をマイクロ秒 (µs) でレポートしますが、[Profile Summary] レポートのほかの部分の時間単位はミリ秒 (ms) です。
  - Compute Unit: 計算ユニットのインスタンス名を示します。
  - Running Time (µs): CU の実行時間の合計をレポートします。
  - Intra-Kernel Stream Stalls (%): カーネル間のデータストリーミング中に停止した実行時間の割合 (%) をレポートします。
  - External Memory Stalls (%): CU 外のメモリ転送で停止した実行時間の割合 (%) をレポートします。
  - External Stream Stalls (%): CU 内外のデータストリーミング中に停止した実行時間の割合 (%) をレポートします。
- Functions: Running Time and Stalls: CU 内の関数の実行時間 (マイクロ秒) と、その実行時間の停止時間の割合 (%) をレポートします。
  - Compute Unit: 計算ユニットのインスタンス名を示します。
  - Function: CU 内の関数名を示します。
  - Running Time (µs): 関数の実行時間の合計をレポートします。
  - Intra-Kernel Stream Stalls (%): カーネル間のデータストリーミング中に停止した実行時間の割合 (%) をレポートします。
  - External Memory Stalls (%): CU 外のメモリ転送で停止した実行時間の割合 (%) をレポートします。
  - External Stream Stalls (%): CU 内外のデータストリーミング中に停止した実行時間の割合 (%) をレポートします。
- Compute Units: Port Data Transfer: 計算ユニットの特定ポートのデータ転送をレポートします。
  - Compute Unit: 計算ユニットのインスタンス名を示します。
  - Port: 計算ユニットのポート名を示します。
  - Write Time (µs): ポートのデータ書き込み時間合計を指定します。
  - Outstanding Write (%): 書き込み処理にかかった実行時間の割合 (%) を指定します。
  - Read Time (µs): ポートのデータ読み出し時間合計を指定します。
  - Outstanding Read (%): 読み出し処理にかかった実行時間の割合 (%) を指定します。