WeGO 中的即时量化 - 3.5 简体中文

Vitis AI 用户指南 (UG1414)

Document ID

UG1414

Release Date

2023-09-28

Version

3.5 简体中文

在最初的 WeGO 工作流程中，由于 WeGO 只接受量化的 INT8 模型作为输入，因此最初必须执行单独的量化进程。这可通过显式使用 Vitis AI 量化器将 float32 模型转换为 INT8 模型来实现。由此导致需要为用户执行额外的任务，例如，在量化器与 WeGO 之间执行 Conda 环境切换操作，以便明确 Vitis AI 量化器与 WeGO 之间的关系。为了提升易用性，使量化到部署的整个进程更顺畅，WeGO 将 Vitis AI 量化器集成到其流程中，这样在提供 float32 模型作为 WeGO 的输入时，即可启用即时量化。除了用于编译的原始 WeGO API 之外，在 WeGO 中还引入了一个全新的 API 用于量化，并且量化器细节完全与最终用户无关，无需最终用户参与。WeGO 中的量化集成尚处于早期阶段，存在下列限制：

此集成流程目前仅支持 PTQ（训练后量化）。如果模型精度与期望相去甚远，必须执行微调或者使用量化感知训练 (QAT) 遵循原生 Vitis AI 量化流程来提升精度。
在 WeGO 中当前仅采用 CPU 进行量化，当前不支持 GPU。量化大型模型时，这可能引发一些问题，并且此进程可能耗用大量时间。