Alveo U50LV データセンター アクセラレータ カード - 2.5 日本語

Vitis AI ライブラリ ユーザー ガイド (UG1354)

Document ID
UG1354
Release Date
2022-06-15
Version
2.5 日本語

ザイリンクス Alveo™ U50LV データセンター アクセラレータ カードは、ザイリンクスの 16nm UltraScale+ テクノロジを採用した PCIe® (Peripheral Component Interconnect Express) Gen3x4 準拠カードです。このリリースでは、DPU は深層学習の推論のアクセラレーション用にプログラム ロジックに実装されています。

注記: 一部のモデルは DPU の最大周波数で実行できないため、DPU の周波数を下げる必要があります。DPU 周波数を下げる方法については、クラウドの場合 (Alveo U50LV/U55C カード、Versal VCK5000 カード) を参照してください。

10PE275MHz DPUCAHX8H での U50LV の性能

次の表では、DPUCAHX8H を使用し、10PE@275MHz で動作する U50LV Gen3x4 のさまざまなニューラル ネットワーク サンプルのスループット性能 (fps) を示しています。

表 1. 10PE275MHz DPUCAHX8H での U50LV の性能
番号 ニューラル ネットワーク 入力サイズ GOPS DPU 周波数 (MHz) 性能 (fps) (複数スレッド)
1 densebox_320_320 320x320 0.49 275*0.6 3019.6
2 densebox_640_360 360x640 1.1 275*0.6 1316.85
3 ENet_cityscapes_pt 512x1024 8.6 275*0.6 87.6572
4 face_landmark 96x72 0.14 275*0.6 9962.12
5 face-quality 80x60 0.06 275*0.6 21927
6 face-quality_pt 80x60 0.06 275*0.6 21381.2
7 facerec_resnet20 112x96 3.5 275*0.6 1252.2
8 facerec_resnet64 112x96 11 275*0.6 456.194
9 facerec-resnet20_mixed_pt 112x96 3.5 275*0.6 1251.82
10 facereid-large_pt 96x96 0.5 275*0.6 7323.87
11 facereid-small_pt 80x80 0.09 275*0.6 21136.4
12 fpn 256x512 8.9 275*0.6 410.005
13 FPN_Res18_Medical_segmentation 320x320 45.3 275*0.6 94.2581
14 FPN-resnet18_covid19-seg_pt 352x352 22.7 275*0.6 212.522
15 inception_resnet_v2_tf 299x299 26.4 275*0.6 158.868
16 inception_v1 224x224 3.2 275*0.6 1153.79
17 inception_v1_tf 224x224 3 275*0.6 1172.51
18 inception_v2 224x224 4 275*0.6 905.825
19 inception_v3 299x299 11.4 275*0.6 374.907
20 inception_v3_pt 299x299 5.7 275*0.6 436.469
21 inception_v3_tf 299x299 11.5 275*0.6 376.126
22 inception_v3_tf2 299x299 11.5 275*0.6 381.252
23 inception_v4 299x299 24.5 275*0.6 170.673
24 inception_v4_2016_09_09_tf 299x299 24.6 275*0.6 170.862
25 medical_seg_cell_tf2 128x128 5.3 275*0.6 1068.04
26 MLPerf_resnet50_v1.5_tf 224x224 8.19 275*0.6 511.799
27 mlperf_ssd_resnet34_tf 1200x1200 433 275*0.6 14.1093
28 multi_task 288x512 14.8 275*0.6 311.041
29 openpose_pruned_0_3 368x368 49.9 275*0.6 29.9892
30 personreid-res18_pt 176x80 1.1 275*0.6 3502.12
31 personreid-res50_pt 256x128 5.4 275*0.6 825.989
32 plate_detection 320x320 0.49 275*0.6 6057.65
33 plate_num 96x288 1.75 275*0.6 1235.06
34 pmg_pt 224x224 2.28 275*0.6 1005.87
35

pointpainting_nuscenes_pt

40000x64x16 112 275*0.6 11.3587
36

pointpillars_nuscenes_pt

40000x64x5 108 275*0.6  
37 rcan_pruned_tf     275*0.6 46.7261
38 refinedet_baseline 480x360 123 275*0.6 50.6985
39 refinedet_pruned_0_8 360x480 25 275*0.6 202.366
40 refinedet_pruned_0_92 360x480 10.1 275*0.6 409.637
41 refinedet_pruned_0_96 360x480 5.1 275*0.6 598.14
42 refinedet_VOC_tf 320x320 81.9 275*0.6 72.5482
43 RefineDet-Medical_EDD_tf 320x320 9.8 275*0.6 430.813
44 reid 80x160 0.95 275*0.6 3686.5
45 resnet_v1_101_tf 224x224 14.4 275*0.6 307.933
46 resnet_v1_152_tf 224x224 21.8 275*0.6 205.482
47 resnet_v1_50_tf 224x224 7 275*0.6 593.205
48 resnet18 224x224 3.7 275*0.6 1301.15
49 resnet50 224x224 7.7 275*0.6 593.457
50 resnet50_pt 224x224 4.1 275*0.6 511.605
51 resnet50_tf2 224x224 7.7 275*0.6 593.395
52 salsanext_pt 64x2048 20.4 275*0.6 148.273
53 salsanext_v2_pt 64x2048 32 275*0.6 32.6958
54 semantic_seg_citys_tf2 512x1024 54 275*0.6 56.9478
55 SemanticFPN_cityscapes_pt 256x512 10 275*0.6 432.466
56 sp_net 128x224 0.55 275*0.6 3312.14
57 squeezenet 227x227 0.76 275*0.6 3573.89
58 squeezenet_pt 224x224 0.82 275*0.6 4127.72
59 ssd_adas_pruned_0_95 360x480 6.3 275*0.6 634.929
60 ssd_pedestrian_pruned_0_97 360x640 5.9 275*0.6 578.179
61 ssd_resnet_50_fpn_coco_tf 640x640 178.4 275*0.6 32.3393
62 ssd_traffic_pruned_0_9 360x480 11.6 275*0.6 393.599
63 tiny_yolov3_vmss 416x416 5.46 275*0.6 889.613
64 unet_chaos-CT_pt 512x512 23.3 275*0.6 86.4056
65 vgg_16_tf 224x224 31 275*0.6 151.612
66 vgg_19_tf 224x224 39.3 275*0.6 125.711
67 vpgnet_pruned_0_99 480x640 2.5 275*0.6 608.757
68 yolov2_voc 448x448 34 275*0.6 166.005
69 yolov2_voc_pruned_0_66 448x448 11.6 275*0.6 421.118
70 yolov2_voc_pruned_0_71 448x448 9.9 275*0.6 494.173
71 yolov2_voc_pruned_0_77 448x448 7.8 275*0.6 598.955
72 yolov3_adas_pruned_0_9 256x512 5.5 275*0.6 645.08
73 yolov3_bdd 288x512 53.7 275*0.6 76.2358
74 yolov3_voc 416x416 65.4 275*0.6 78.299
75 yolov3_voc_tf 416x416 65.6 275*0.6 78.6213
76 yolov4_leaky_spp_m 416x416 60.1 275*0.6 82.8466
77 yolov4_leaky_spp_m_pruned_0_36 416x416 38.2 275*0.6 93.4533
78 ultrafast_pt 288x800 8.4 275*0.6 247.121
79 ocr_pt 960x960 875.7 275*0.6 4.85102
80 drunet_pt 528x608 2.59 275*0.6 336.948
81 person-orientation_pruned_558m_pt 224x112 0.558 275*0.6 5858.88
82 ofa_resnet50_0_9B_pt 160x160 0.9 275*0.6 1548.17
83 SESR_S_pt 360x640 7.48 275*0.6 188.92
84 FairMot_pt 640x480 36 275*0.6 138.167
85 tsd_yolox_pt 640x640 73 275*0.6 71.9709
86 fadnet 576x960 441 275*0.6 1.15903
87 chen_color_resnet18_pt 224x224 3.627 275*0.6 1316.57
88 ofa_rcan_latency_pt 360x640 45.7 275*0.6 45.0427
89 textmountain_pt 960x960 575.2 275*0.6 4.34047
90 vehicle_make_resnet18_pt 224x224 3.627 275*0.6 1314.66
91 vehicle_type_resnet18_pt 224x224 3.627 275*0.6 1099.59
92 ofa_yolo_pt 640x640 48.88 275*0.6 98.3836
93 ofa_yolo_pruned_0_30_pt 640x640 34.71 275*0.6 124.947
94 ofa_yolo_pruned_0_50_pt 640x640 24.62 275*0.6 159.48
95 yolov3-coco_tf2 416x416 65.9 275*0.6 77.8275
注記: DPU 周波数は、ベース クロック周波数 275MHz にスケーリング係数を掛けて求めます。スケーリング係数を 0.6 とすると、実際の DPU 周波数は 275MHz * 0.6 = 165MHz です。詳細は、DPU の周波数のスケール ダウン を参照してください。

8PE275MHz DPUCAHX8H-DWC での U50LV の性能

次の表では、DPUCAHX8H-DWC を使用し、8PE@275MHz で動作する U50LV Gen3x4 のさまざまなニューラル ネットワーク サンプルのスループット性能 (fps) を示しています。

表 2. 8PE275MHz DPUCAHX8H-DWC での U50LV の性能
番号 ニューラル ネットワーク 入力サイズ GOPS DPU 周波数 (MHz) 性能 (fps) (複数スレッド)
1 bcc_pt 800x1000 268.9 275*0.6 16.6661
2 densebox_320_320 320x320 0.49 275*0.6 2427.41
3 densebox_640_360 360x640 1.1 275*0.6 1072.48
4 efficientNet-edgetpu-M_tf 240x240 7.34 275*0.6 543.658
5 efficientNet-edgetpu-S_tf 224x224 4.72 275*0.6 883.956
6 ENet_cityscapes_pt 512x1024 8.6 275*0.6 69.9751
7 face_landmark 96x72 0.14 275*0.6 8024.52
8 face-quality 80x60 0.06 275*0.6 20330.7
9 face-quality_pt 80x60 0.06 275*0.6 20109.1
10 facerec_resnet20 112x96 3.5 275*0.6 1002.06
11 facerec-resnet20_mixed_pt 112x96 3.5 275*0.6 1001.98
12 facerec_resnet64 112x96 11 275*0.6 364.722
13 facereid-large_pt 96x96 0.5 275*0.6 5908.28
14 facereid-small_pt 80x80 0.09 275*0.6 17368.6
15 fpn 256x512 8.9 275*0.6 328.268
16 FPN_Res18_Medical_segmentation 320x320 45.3 275*0.6 75.4599
17 FPN-resnet18_covid19-seg_pt 352x352 22.7 275*0.6 170.044
18 FPN-resnet18_Endov 240x320 13.75 275*0.6 273.826
19 hourglass-pe_mpii 256x256 10.2 275*0.6 261.393
20 inception_resnet_v2_tf 299x299 26.4 275*0.6 127.053
21 inception_v1 224x224 3.2 275*0.6 925.089
22 inception_v1_tf 224x224 3 275*0.6 938.829
23 inception_v2 224x224 4 275*0.6 726.823
24 inception_v2_tf 224x224 3.88 275*0.6 322.888
25 inception_v3 299x299 11.4 275*0.6 300.73
26 inception_v3_pt 299x299 5.7 275*0.6 300.753
27 inception_v3_tf 299x299 11.5 275*0.6 300.882
28 inception_v3_tf2 299x299 11.5 275*0.6 305.501
29 inception_v4 299x299 24.5 275*0.6 136.534
30 inception_v4_2016_09_09_tf 299x299 24.6 275*0.6 136.731
31 medical_seg_cell_tf2 128x128 5.3 275*0.6 855.479
32 MLPerf_resnet50_v1.5_tf 224x224 8.19 275*0.6 409.832
33 mlperf_ssd_resnet34_tf 1200x1200 433 275*0.6 11.287
34 mobilenet_1_0_224_tf2 224x224 1.1 275*0.6 2415.83
35 mobilenet_edge_0_75_tf 224x224 0.62 275*0.6 1954.19
36 mobilenet_edge_1_0_tf 224x224 0.99 275*0.6 1583.69
37 mobilenet_v1_0_25_128_tf 128x128 0.027 275*0.6 14834.8
38 mobilenet_v1_0_5_160_tf 160x160 0.15 275*0.6 8837.2
39 mobilenet_v1_1_0_224_tf 224x224 1.1 275*0.6 2415.28
40 mobilenet_v2 224x224 0.6 275*0.6 2254.32
41 mobilenet_v2_1_0_224_tf 224x224 0.6 275*0.6 2226.09
42 mobilenet_v2_1_4_224_tf 224x224 1.2 275*0.6 1498.5
43 MT-resnet18_mixed_pt 512x320 13.65 275*0.6 217.501
44 multi_task 288x512 14.8 275*0.6 249.15
45 multi_task_v3_pt 320x512 25.44 275*0.6 118.961
46 openpose_pruned_0_3 368x368 49.9 275*0.6 23.9847
47 personreid-res18_pt 176x80 1.1 275*0.6 2813.31
48 personreid-res50_pt 256x128 5.4 275*0.6 661.477
49 plate_detection 320x320 0.49 275*0.6 5504.91
50 plate_num 96x288 1.75 275*0.6 1032.14
51 pmg_pt 224x224 2.28 275*0.6 806.201
52

pointpainting_nuscenes_pt

40000x64x16 112 275*0.6 11.3264
53

pointpillars_nuscenes_pt

40000x64x5 108 275*0.6 20.5525
54 rcan_pruned_tf 360x640 86.95 275*0.6 37.4104
55 refinedet_baseline 480x360 123 275*0.6 40.5857
56 RefineDet-Medical_EDD_tf 320x320 9.8 275*0.6 345.013
57 refinedet_pruned_0_8 360x480 25 275*0.6 162.179
58 refinedet_pruned_0_92 360x480 10.1 275*0.6 328.319
59 refinedet_pruned_0_96 360x480 5.1 275*0.6 478.858
60 refinedet_VOC_tf 320x320 81.9 275*0.6 58.0051
61 reid 80x160 0.95 275*0.6 2958.9
62 resnet18 224x224 3.7 275*0.6 1042.76
63 resnet50 224x224 7.7 275*0.6 475.731
64 resnet50_pt 224x224 4.1 275*0.6 409.639
65 resnet50_tf2 224x224 7.7 275*0.6 475.35
66 resnet_v1_101_tf 224x224 14.4 275*0.6 246.714
67 resnet_v1_152_tf 224x224 21.8 275*0.6 164.316
68 resnet_v1_50_tf 224x224 7 275*0.6 475.39
69 retinaface 360x640 1.11 275*0.6 1394.77
70 salsanext_pt 64x2048 20.4 275*0.6 139.205
71 salsanext_v2_pt 64x2048 32 275*0.6 28.2192
72 SemanticFPN_cityscapes_pt 256x512 10 275*0.6 346.747
73 SemanticFPN_Mobilenetv2_pt 512x1024 5.4 275*0.6 135.54
74 semantic_seg_citys_tf2 512x1024 54 275*0.6 47.4384
75 sp_net 128x224 0.55 275*0.6 2608.77
76 squeezenet 227x227 0.76 275*0.6 2703.96
77 squeezenet_pt 224x224 0.82 275*0.6 2884.24
78 ssd_adas_pruned_0_95 360x480 6.3 275*0.6 508.212
79 ssd_inception_v2_coco_tf 300x300 9.6 275*0.6 156.866
80 ssdlite_mobilenet_v2_coco_tf 300x300 1.5 275*0.6 1045.29
81 ssd_mobilenet_v1_coco_tf 300x300 2.5 275*0.6 1127.75
82 ssd_mobilenet_v2 360x480 6.6 275*0.6 302.924
83 ssd_mobilenet_v2_coco_tf 300x300 3.8 275*0.6 635.809
84 ssd_pedestrian_pruned_0_97 360x640 5.9 275*0.6 462.667
85 ssd_resnet_50_fpn_coco_tf 640x640 178.4 275*0.6 25.9307
86 ssd_traffic_pruned_0_9 360x480 11.6 275*0.6 315.673
87 tiny_yolov3_vmss 416x416 5.46 275*0.6 711.306
88 unet_chaos-CT_pt 512x512 23.3 275*0.6 69.1428
89 vgg_16_tf 224x224 31 275*0.6 121.121
90 vgg_19_tf 224x224 39.3 275*0.6 100.648
91 vpgnet_pruned_0_99 480x640 2.5 275*0.6 485.828
92 yolov2_voc 448x448 34 275*0.6 132.761
93 yolov2_voc_pruned_0_66 448x448 11.6 275*0.6 337.318
94 yolov2_voc_pruned_0_71 448x448 9.9 275*0.6 396.047
95 yolov2_voc_pruned_0_77 448x448 7.8 275*0.6 479.383
96 yolov3_adas_pruned_0_9 256x512 5.5 275*0.6 517.483
97 yolov3_bdd 288x512 53.7 275*0.6 60.9853
98 yolov3_voc 416x416 65.4 275*0.6 62.6043
99 yolov3_voc_tf 416x416 65.6 275*0.6 62.93
100 yolov4_leaky_spp_m 416x416 60.1 275*0.6 66.3219
101 yolov4_leaky_spp_m_pruned_0_36 416x416 38.2 275*0.6 74.6945
102 ultrafast_pt 288x800 8.4 275*0.6 197.568
103 ocr_pt 960x960 875.7 275*0.6 4.71502
104 drunet_pt 528x608 2.59 275*0.6 268.163
105 person-orientation_pruned_558m_pt 224x112 0.558 275*0.6 4727.32
106 ofa_resnet50_0_9B_pt 160x160 0.9 275*0.6 1242.57
107 SESR_S_pt 360x640 7.48 275*0.6 151.052
108 c2d2_lite 512x512 6.86 275*0.6 17.5468
109 ofa_depthwise_res50_pt 176x176 1.25 275*0.6 2269.73
110 FairMot_pt 640x480 36 275*0.6 110.498
111 tsd_yolox_pt 640x640 73 275*0.6 57.6017
112 ssr_pt 256x256 39.72 275*0.6 26.8389
113 fadnet 576x960 441 275*0.6 3.86275
114 chen_color_resnet18_pt 224x224 3.627 275*0.6 1056.01
115 face_mask_detection_pt 512x512 0.593 275*0.6 737.283
116 ofa_rcan_latency_pt 360x640 45.7 275*0.6 36.0591
117 textmountain_pt 960x960 575.2 275*0.6 7.82881
118 vehicle_make_resnet18_pt 224x224 3.627 275*0.6 1054.04
119 vehicle_type_resnet18_pt 224x224 3.627 275*0.6 1055.42
120 ofa_yolo_pt 640x640 48.88 275*0.6 78.8655
121 ofa_yolo_pruned_0_30_pt 640x640 34.71 275*0.6 99.6788
122 ofa_yolo_pruned_0_50_pt 640x640 24.62 275*0.6 127.52
123 movenet_ntd_pt 192x192 0.5 275*0.6 1747.97
124 yolov3-coco_tf2 416x416 65.9 275*0.6 62.3477
注記: DPU 周波数は、ベース クロック周波数 275MHz にスケーリング係数を掛けて求めます。スケーリング係数を 0.6 とすると、実際の DPU 周波数は 275MHz * 0.6 = 165MHz です。詳細は、DPU の周波数のスケール ダウン を参照してください。