硬件架构 - 1.2 简体中文

DPUCVDX8G 是由 PL 和 AI 引擎组成的。AI 引擎用于神经网络中的卷积运算。数据传输、指令调度、池化、逐元素求和及逐通道卷积都在 PL 内执行。

DPUCVDX8G 可设置多个批处理程序。每个批处理程序都有一个对应的 AI 引擎阵列和相关的 AI 引擎接口 tile 拼块资源。在 PL 侧，DPUCVDX8G 分为两部分：批处理程序和共享逻辑。批处理程序主要用于处理特征映射，例如加载、保存和池化等。批处理程序中的算术和逻辑单元 (ALU) 模块可以为特征映射处理池化、逐元素和逐通道卷积运算。特征映射存储在由片上 RAM 组成的 IMG BANK 中。图像发送器和权重发送器模块用于为 AI 引擎阵列准备数据。PL 组件中的共享逻辑包含“Permuter”（置换器）模块和“Scheduler”（调度器）模块。调度器用于从 NoC 提取指令，并将这些指令分派给批处理程序和 Permuter 模块。Permuter 模块会加载来自 NoC 的权重和偏差，并将特定权重数据发送到 AI 引擎阵列以供执行每一次计算迭代。如需了解更多信息，请参阅表 1。

DPUCVDX8G 还可设置多个计算单元以便同时运行多个不同模型。请注意，这需要多个 NoC PL NMU 接口（请参阅表 1）。

DPUCVDX8G 会在启动后从 NoC 提取指令，用于控制计算引擎的操作。这些指令是由 Vitis™ AI 编译器生成的，在该编译器中会执行各项重大的最优化操作。

片上存储器用于缓冲输入数据、中间数据和输出数据，以达成高吞吐量和高效率的目标。此数据将复用以便减少外部存储器带宽。对于计算引擎，会使用深度流水打拍式设计。

下图显示了 DPUCVDX8G 的详细硬件架构。

图 1. DPUCVDX8G 的硬件架构