通过直接偏好对齐提升量化大型语言模型的对话能力

Jul, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment

Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang...

TL;DR大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的LLMs与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的LLMs上评估时，QDPO在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式LLMs方面迈出了重要的一步。

Abstract

The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human

发现论文，激发创造

Chat Vector：为语言模型赋予新的语言聊天能力的简易方法

使用聊天向量(chat vector)和计算上高效的方法，将对话模型(ChatGPT)与人类偏好对齐，展示了对非英语语言特别是中文的适应性及高效性。

Oct, 2023

ChatGLM-RLHF：大型语言模型与人类反馈的对齐实践

ChatGLM-RLHF是一种从人类反馈中进行强化学习的系统，通过收集人类偏好数据、训练奖励模型和优化策略等方式，解决了与人类偏好的对齐问题，在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘，通过实验证明在中文对齐任务中与ChatGLM-SFT相比，ChatGLM-RLHF取得了平均15%的更多胜利，本研究实践了利用人类偏好与语言模型对齐的方法，并提供了RLHF实现中的挑战与解决方案的见解。

Apr, 2024

大规模语言模型对线机恁学习的离维匀整进化

通过使用单轨迹数据集，本研究提出了DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用T5编码器-解码器语言模型进行实证验证，证实了DRO相对于KTO等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的fine-tuning框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

探索性偏好优化：利用隐含的Q*近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强DPO目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了XPO具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。

May, 2024

Q-Adapter: 将您的LLM适配器训练为残差Q函数

本论文介绍了一种名为Q-Adapter的新方法，该方法通过在下游偏好数据上学习一个逼近残差Q-function的模块，以定制化预训练的大型语言模型(LLM)，在多个任务和安全对齐任务的实验中展现了对防止遗忘和学习新偏好方面的卓越性能。

Jul, 2024

不同个性化的协同LML构建

这篇论文提出了一种新颖的方法，用于将大型语言模型（LLMs）与个人偏好进行匹配，有时被称为个性化人工反馈的强化学习（RLPHF）方法。通过合并多个专门训练在特定偏好维度上的专家LLMs的输出，使用黑盒方法在标记级别上生成文本，并通过训练轻量级偏好控制模型（PCM）动态地调整下一个标记的预测权重，从而优化给定的偏好。实证测试表明，该方法与现有的偏好合并技术相匹配甚至超过，提供了一种可扩展的、高效的用于个人化的LLMs微调的替代方法。

Jul, 2024

偏好对齐改善基于语言模型的文本到语音合成

本研究解决了基于语言模型的文本到语音合成(TTS)在生成内容吸引力方面的优化问题。通过偏好对齐算法，尤其是直接偏好优化(DPO)，显著提升了可懂性、说话者相似性及主观评估得分，且在某些评估中超越了人类语音。研究表明，偏好对齐适用于低资源场景，并能有效推广到领域外的应用。

Sep, 2024

研究强化学习与人类偏好的对齐方法

本研究解决了大语言模型对齐人类偏好的问题。我们提出了一种新颖的方法，通过混淆度筛选收集偏好数据集，从而简化了为特定语言模型创建此类数据集的过程，降低了成本。我们的研究成果有助于提高大语言模型的对齐效果和应用价值。

Oct, 2024