Feb, 2024

RepQuant: 基于尺度重参数化的大型 Transformer 模型准确的后训练量化

TL;DR提出了一种新型的后训练量化框架 RepQuant,通过量化推理解耦合范式,采用复杂的量化器进行量化过程,采用简化的量化器进行推理过程,同时将量化标度重新参数化,以确保准确的量化和高效的推理,并通过集成量化权重重构进一步提高性能限制,经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。