DPUCZDX8G 架构 - 4.0 简体中文

面向 Zynq UltraScale+ MPSoC 的 DPUCZDX8G 产品指南 (PG338)

Document ID
PG338
Release Date
2022-06-24
Version
4.0 简体中文

DPUCZDX8G IP 可搭配多种卷积架构来配置,这些架构与卷积单元的并行度有关。DPUCZDX8G IP 的架构包括 B512、B800、B1024、B1152、B1600、B2304、B3136 和 B4096。

DPUCZDX8G 卷积架构中有 3 个维度的并行度:像素并行度、输入通道并行度和输出通道并行度。输入通道并行度始终等于输出通道并行度(等于表 8 中的 channel_parallel)。

图 1. 3 个维度的并行度的直观视图

在图 10 中,输入通道并行度 (ICP) = 3;输出通道并行度 (OCP) = 3;像素并行度 (PP) = 2。OCP 等于卷积计算期间所使用的内核数量。图中使用的像素数是随机值,仅作清晰展示用途。
注释: 计算中所使用的元素使用来自每条通道的 1 个像素(图中红色矩形体)。当 ICP = OCP = 3 且 PP = 2 时,每个周期的卷积 MAC 数量为 3 * 3 * 2 = 18。

不同架构需要不同的可编程逻辑资源。更大的架构可利用更多资源达成更高性能。下表中列出了不同架构的并行度。

表 1. 不同卷积架构的并行度
DPUCZDX8G 架构 像素并行度 (PP) 输入通道并行度 (ICP) 输出通道并行度 (OCP) 峰值运算数(每个周期的运算数)
B512 4 8 8 512
B800 4 10 10 800
B1024 8 8 8 1024
B1152 4 12 12 1150
B1600 8 10 10 1600
B2304 8 12 12 2304
B3136 8 14 14 3136
B4096 8 16 16 4096
  1. 在每个时钟周期内,卷积阵列都会执行一次乘法和一次累加,这计作 2 次运算。因此,每个周期的峰值运算数量等于 PP*ICP*OCP*2。