在硅片上调试 AI 引擎 PL 性能

在硅片上调试 AI 引擎 PL 性能 - 2023.2 简体中文

Versal 自适应 SoC 系统集成和确认方法指南 (UG1388)

Document ID

UG1388

Release Date

2023-11-15

Version

2023.2 简体中文

以下是用于调试 AI 引擎 PL 性能的推荐方法：

将 AI 引擎计算图细分为多个较小的计算图，以便分析硅片上的瓶颈。例如：
- 如果计算图在 AI 引擎和 PL 内包含内核，则可将该计算图划分为多个子计算图，以验证功能和性能。通过这种方法即可找到性能瓶颈。
- 如果计算内核（位于 AI 引擎内或 PL 内）收到来自多个 AXI4 串流的数据，那么由于不同串流上数据到达时间不同，可能导致内核性能下降。发生此现象的原因可能是由于反压，或者也可能是由于先前计算图中内核的不同计算复杂程度所导致的。计算图可在内核级别加以细分，以验证所有串流是否都已达到最佳性能。
注释：或者，也可以使用内核级别性能指标和调试来分析瓶颈。
将 AI 引擎计算图替换为简单的直通系统。
使用事件追踪调试功能来计算不同内核中存储器停滞次数。欲知详情，请访问此链接以参阅 AI 引擎工具和流程用户指南 (UG1076) 中的相应内容。