Nov, 2024

AMXFP4:通过不对称微缩浮点技术驯服激活异常值以进行4位大语言模型推理

TL;DR本研究解决了在扩展上下文长度的大语言模型推理中,低精度量化导致性能下降的问题。提出的不对称微缩4位浮点格式(AMXFP4)利用不对称共享尺度减少激活异常值的影响,显著提高了4位量化精度。AMXFP4在多轮对话、长期推理和视觉问答等多种任务中,表现优于传统方法,支持无校准的稳健推理。