性能和 PL 最大频率 - 2023.2 简体中文

Versal 器件提供了许多全新的专用 IP 块，例如，NoC、DDR 存储器控制器、CPM 和 AI 引擎。这些专用 IP 块可以通过高带宽数据移动和接口来进一步提升系统级单位功耗性能。为了适应这些新集成的专用 IP 块，Versal 器件可编程逻辑 (PL) 已在 UltraScale+ 器件 PL 基础上进行了升级，不仅提升了硅片面积的效率，同时保留相似的 PL 性能。升级后，Versal 器件的处理方式较之前产生的主要变化如下：

现在，对于映射到先前架构中的 PL 的许多常用硬件函数，这些专用 IP 块能够提供有效支持，节省了大量 PL 资源。
PL 布线互连和 CLB 的延迟分布以及时钟偏差和抖动特性与先前架构有所不同。此差异导致有部分逻辑路径更快，而部分逻辑路径则更慢。在本章后续小节中将详解有关 CLB 和时钟设置的主要差异。
随着下一代应用所需的 PL RAM 资源（包括硅片高效型 UltraRAM）量和特殊 IP 块列的数量增加，导致布线延迟出现更多变化。

将 PL 函数移植到 Versal 器件时，旧 RTL 设计可能需要微调以减少进位运算符周围的逻辑级数，并对流水线寄存器之间的逻辑级数进行重新平衡，以确保同等器件速度等级上的平均可编程逻辑互连结构性能与前几代保持不变。如需获取硬件设计建议，请参阅 Versal 自适应 SoC 硬件、IP 和平台开发方法指南(UG1387)。如需获取时序收敛建议，请参阅 Versal 自适应 SoC 系统集成和确认方法指南(UG1388)。

在传统 Fmax 基准测试中，会对目标技术之间 RTL 设计可实现的最大 PL 时钟速度进行比较，而现在，已不适合采用此方法来将 Versal 自适应 SoC 与前几代 FPGA 和 SoC 进行比对评估，原因如下：

Versal 架构是专为自适应加速而优化的架构。因此，仅围绕 PL 时钟速度来评估会导致忽略 Versal 器件专用 IP 块的优势。AMD 建议，改为专注于比较系统级计算和吞吐量指标。
全新的 Versal 自适应 SoC 高层次构建块并非通过 RTL 来推断，而是使用 AMD Vitis™ 环境或 AMD Vivado™ IP integrator 来进行设计。因此，比较 RTL 设计会导致过高估计 Versal 器件 PL 使用率，从而忽略因使用 Versal 器件专用 IP 块所节省的使用率和功耗。