DepthwiseConv (ALU) - 4.1 简体中文

适用于 Zynq UltraScale+ MPSoC 的 DPUCZDX8G 产品指南 (PG338)

Document ID
PG338
Release Date
2023-01-23
Version
4.1 简体中文

在传统卷积中,每条输入通道都需要对一个特定内核执行运算,随后通过将所有通道的结果组合在一起来获取结果。

在逐通道可分离卷积中,通过 2 个步骤来执行运算:逐通道卷积和逐点卷积。对于每个特征映射都会单独执行逐通道卷积,如下图左侧所示。下一步是执行逐点卷积,它与内核大小为 1x1 的传统卷积相同。逐通道卷积的并行度是像素并行度的一半。

在 DPUCZDX8G 中,逐通道卷积是由于 ALU 引擎配合池化一起执行的。ALU 并行范围介于 1 到 PP 之间,建议设为 PP/2。

图 1. 逐通道卷积和逐点卷积
表 1. 含不同 ALU 并行的 DPUCZDX8G B4096 的资源
ALU 并行 LUT FF 块 RAM DSP
1 44212 88250 255 662
2 46599 92380 255 678
4
(推荐)
51388 98525 255 710
8 60751 111329 255 774