DPUCVDX8G 属于高性能通用卷积神经网络 (CNN) 处理引擎,专为 Versal ACAP 器件而优化。此 IP 可由用户配置且包含多个参数,用户可通过指定这些参数来配置所使用的 AI 引擎数量和 PL 资源使用情况。DPUCVDX8G 由 AI 引擎和 PL 组成。
DPUCVDX8G 中的 AI 引擎用于执行卷积。AI 引擎接口 tile 拼块用于在 AI 引擎与 PL 之间传输数据。AI 引擎组由多个相邻的 AI 引擎组成,以供在部分 Versal 器件中执行高性能计算。对于多批次 DPUCVDX8G 架构,每个批处理程序都有一个专用 AI 引擎组。
PL 组件包含高层次调度器模块、用于共享权重的全局存储器以及用于加载、保存、逐通道、池化和逐元素的批处理程序。调度器和权重缓冲器是所有 DPUCVDX8G 批处理程序之间的共享逻辑。每个批处理程序都有专用的加载和存储模块、逐通道、池化和逐元素模块以及局部特征映射存储器。
DPUCVDX8G 的顶层模块框图如下图所示。
图 1.
DPUCVDX8G 模块框图