提升 AI 引擎中的性能 - 2023.2 简体中文

Versal 自适应 SoC 系统集成和确认方法指南 (UG1388)

Document ID
UG1388
Release Date
2023-11-15
Version
2023.2 简体中文

有多种技巧可用于剖析和改善 AI 引擎计算图与内核的性能。

您可以使用 Xilinx Runtime (XRT) API 来测量各项性能指标,如平台 I/O 带宽、计算图吞吐量和计算图时延。在主机应用代码中将这些 API 与 AI 引擎计算图对象配合使用。此对象用于初始化、运行、更新和退出计算图。此外,您可使用这些 API 来剖析计算图对象,以测量带宽、吞吐量和时延。欲知详情,请访问此链接以参阅 AI 引擎工具和流程用户指南 (UG1076) 中的相应内容。

AI 引擎性能分析通常涉及各种系统性能问题,如锁定缺失或不匹配、缓冲器溢出以及直接存储器访问 (DMA) 缓冲器编程错误。它还包含存储器/核停滞、死锁以及热点分析。AI 引擎架构可为仿真、硬件仿真或硬件执行期间的事件生成、收集和串流(作为追踪数据)提供直接支持。随后,可对此数据进行分析,以查找内核、存储器停滞、死锁等功能问题和时延问题。欲知详情,请参阅:

AI 引擎 API 对比内部函数

AI 引擎 API 是适用于 AI 引擎加速器的便携式编程接口。它是作为仅限 C++ 头文件的库来实现的,可以提供多种类型和运算,以供转换为高效的低级内部函数。AMD 强烈建议为您的设计使用 AI 引擎 API。仅当设计具有苛刻的性能需求,且需要 AI 引擎 API 中尚未涵盖的功能时,才能考虑使用内部函数。例如,AI 引擎 API 当前不支持 fft_data_incrcyclic_add 等部分内部函数所提供的功能。虽然 AI 引擎 API 能支持并抽象化主要的置换用例,但并未涵盖所有置换功能。使用内部函数可能使您能够弥补设计所需的性能缺陷。

如需了解有关使用 AI 引擎 API 和内部函数的更多信息,请参阅 AI 引擎内核与计算图编程指南 (UG1079)