Jul, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

TL;DR大型语言模型(LLMs)的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人,通过高级技术如调整指令和通过人类反馈进行强化学习(RLHF)紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法,即量化感知的直接偏好优化(QDPO),通过将量化的LLMs与其完整精度的对应物对齐,从而提升对话能力。在使用不同语言的两个经过指令调整的LLMs上评估时,QDPO在提高对话能力方面表现出优越性,相比已确立的后训练量化(PTQ)和知识蒸馏微调技术,标志着在开发高效且有效的对话式LLMs方面迈出了重要的一步。