DPUCZDX8G IP 可搭配多种卷积架构来配置,这些架构与卷积单元的并行度有关。DPUCZDX8G IP 的架构包括 B512、B800、B1024、B1152、B1600、B2304、B3136 和 B4096。
在 DPUCZDX8G 卷积架构中有 3 个维度的并行度:像素并行度、输入通道并行度和输出通道并行度。输入通道并行度始终等于输出通道并行度(等于表 8 中的 channel_parallel)。
图 1. 3 个维度的并行度的直观视图
在图 10 中,输入通道并行度 (ICP) = 3;输出通道并行度 (OCP) = 3;像素并行度 (PP) = 2。OCP 等于卷积计算期间所使用的内核数量。图中使用的像素数是随机值,仅作清晰展示用途。
注释: 计算中所使用的元素使用来自每条通道的 1 个像素(图中红色矩形体)。当 ICP = OCP = 3 且 PP = 2 时,每个周期的卷积 MAC 数量为 3 * 3 * 2 = 18。
不同架构需要不同的可编程逻辑资源。更大的架构可利用更多资源达成更高性能。下表中列出了不同架构的并行度。
DPUCZDX8G 架构 | 像素并行度 (PP) | 输入通道并行度 (ICP) | 输出通道并行度 (OCP) | 峰值运算数(每个周期的运算数) |
---|---|---|---|---|
B512 | 4 | 8 | 8 | 512 |
B800 | 4 | 10 | 10 | 800 |
B1024 | 8 | 8 | 8 | 1024 |
B1152 | 4 | 12 | 12 | 1150 |
B1600 | 8 | 10 | 10 | 1600 |
B2304 | 8 | 12 | 12 | 2304 |
B3136 | 8 | 14 | 14 | 3136 |
B4096 | 8 | 16 | 16 | 4096 |
|