在硅片上调试 AI 引擎 PL 性能 - 2023.2 简体中文

Versal 自适应 SoC 系统集成和确认方法指南 (UG1388)

Document ID
UG1388
Release Date
2023-11-15
Version
2023.2 简体中文

以下是用于调试 AI 引擎 PL 性能的推荐方法:

  • AI 引擎计算图细分为多个较小的计算图,以便分析硅片上的瓶颈。例如:
    • 如果计算图在 AI 引擎和 PL 内包含内核,则可将该计算图划分为多个子计算图,以验证功能和性能。通过这种方法即可找到性能瓶颈。
    • 如果计算内核(位于 AI 引擎内或 PL 内)收到来自多个 AXI4 串流的数据,那么由于不同串流上数据到达时间不同,可能导致内核性能下降。发生此现象的原因可能是由于反压,或者也可能是由于先前计算图中内核的不同计算复杂程度所导致的。计算图可在内核级别加以细分,以验证所有串流是否都已达到最佳性能。
    注释: 或者,也可以使用内核级别性能指标和调试来分析瓶颈。
  • AI 引擎计算图替换为简单的直通系统。
  • 使用事件追踪调试功能来计算不同内核中存储器停滞次数。欲知详情,请访问此链接以参阅 AI 引擎工具和流程用户指南 (UG1076) 中的相应内容。