Sep, 2023

PB-LLM:部分二元化大型语言模型

TL;DR本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化LLMs(PB-LLM),我们能够在保持低位量化的同时保持LLMs的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化LLMs容量的方法。这些研究和方法对于改善低位量化LLMs的性能以及网络二值化在LLMs领域的发展具有重要的意义。