参数高效偏好对齐技术的深入探讨

ACLJun, 2024

参数高效偏好对齐技术的深入探讨

A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques

Megh Thakkar, Quentin Fournier, Matthew D Riemer, Pin-Yu Chen, Amal Zouaq...

TL;DR对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。

Abstract

large language models are first pre-trained on trillions of tokens and then instruction-tuned or aligned to specific preferences. While pre-training remains out of reach for most researchers due to the compute re

large language models pre-training fine-tuning alignment downstream performance

发现论文，激发创造

强化学习的更多人类友好性，更多的信任？对语言模型可靠性的影响

研究发现在大型语言模型的发展中，通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善，但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究，发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此，需要更加微妙的方法对模型进行对齐，以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。

Apr, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

参数高效技术与完全微调之间的比较：多语言新闻文章分类案例研究

适配器和低秩适应（LoRA）是旨在使语言模型训练更加高效的参数节约微调技术。本研究通过调查这些技术在多语言文本分类任务中（流派、框架和说服技巧检测；具有不同输入长度、预测类别数量和分类难度；其中一些任务数据有限）与全面微调相比，对分类性能和计算成本的影响，补充了现有研究。此外，我们对不同训练场景（在原始多语言数据上训练；在英文翻译上训练；以及在部分仅英文数据上）和不同语言进行了彻底分析，为参数节约微调技术的适用性，特别是对复杂的多语言和多标签分类任务提供了有价值的见解。

Aug, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

基于完整参数和 LoRA 的微调在指令遵循大型语言模型的比较研究

本研究通过实验比较全参数微调和 LoRA 微调方法，使用 LLaMA 作为基础模型，发现基础模型选择、训练数据集规模、可训练参数数量和模型训练成本都是重要因素。该实验结论可以为训练大型语言模型提供启示，特别是在中文领域，帮助研究人员找到更好的训练成本和模型性能的平衡策略。为了方便本文结果的复现，我们将公开数据集、模型和代码。

Apr, 2023

通过动态参数调整彻底改变大型语言模型训练

在大语言模型时代，提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法，引入了一种新颖的参数高效训练技术，通过频繁改变可训练参数的一部分，提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少，与当前最先进的参数高效算法相当，而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。

Jun, 2024

在线合并优化器用于提升回报和降低税额的对齐

通过在线合并优化器，在人类反馈强化学习中持续调节训练方向，实现大语言模型的高性能表现和对齐奖励的显著提升，同时减小对齐成本。

May, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024