如有多个不同神经网络在 DPUCZDX8G 上运行,I/O 带宽要求将因当前执行的神经网络而异。即使在单个神经网络中,不同层级的 I/O 带宽要求也不尽相同。单个 DPUCZDX8G
核全速运行即可捕获部分神经网络的按层平均 I/O 带宽要求。下表显示了 3 种不同神经网络的峰值和平均 I/O 带宽要求。提供的数据适用于 2 种常用 DPUCZDX8G 架构(B1152 和 B4096)。
注释: 如有多个 DPUCZDX8G
核并行运行,由于 I/O 带宽限制,单个核可能无法达成最优性能。
网络模型 | B1152 | B4096 | ||
---|---|---|---|---|
峰值 (MB/s) | 均值 (MB/s) | 峰值 (MB/s) | 均值 (MB/s) | |
Inception-v1 | 1704 | 890 | 4626 | 2474 |
ResNet50 | 2052 | 1017 | 5298 | 3132 |
SSD ADAS VEHICLE | 1516 | 684 | 5724 | 2049 |
YOLO-V3-VOC | 2076 | 986 | 6453 | 3290 |
如有某一个 DPUCZDX8G 核需全速运行,则应满足峰值 I/O 带宽要求。这些带宽要求主要与通过 AXI 主接口(DPU0_M_AXI_DATA0 和 DPU0_M_AXI_DATA1)访问的数据相关联。