DeAL: 大型语言模型解码时间对齐

Feb, 2024

DeAL: Decoding-time Alignment for Large Language Models

James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta...

TL;DR提出了一种名为 DeAL 的框架，通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标，弥补模型训练中的残缺缺陷，并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。

Abstract

large language models (LLMs) are nowadays expected to generate content aligned with human preferences. Current work focuses on alignment at model training time, through techniques such as Reinforcement Learning w

large language models alignment reinforcement learning with human feedback decoding-time alignment customize reward functions

发现论文，激发创造

语言模型的解码时间对齐

对减少语言模型中的错误和偏见，与人类偏好进行对齐至关重要。我们提出解码时重新对齐（DeRa）的简单方法，用于探索和评估不同的规则化强度，从而在不重新训练的情况下实现对齐模型的规则化强度的控制，并提高超参数调优的效率。

Feb, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

进化启发式奖励引导的解码时对齐

利用进化方法，通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。

Jun, 2024

Proxy-RLHF: 大规模语言模型中分离生成与对齐的代理模型

我们介绍了一种代理强化学习方法（Proxy-RLHF），该方法解耦了生成和对齐大型语言模型的过程，以较低的计算成本实现与人类价值观的对齐。

Mar, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

ALaRM: 通过层次化奖励模型对齐语言模型

我们介绍了 ALaRM，这是第一个模拟强化学习中的分层奖励的框架，旨在增强大型语言模型与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励相结合，解决了当前对齐方法的局限性，从而更准确、一致地引导语言模型朝着期望的结果发展，特别是在复杂和开放的文本生成任务中。通过采用基于一致性过滤和组合多个奖励的方法，该框架提供了一种可靠的机制来改善模型的对齐。我们通过在长篇问答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较，并证明了与现有基线方法相比的改进效果。我们的工作强调了分层奖励建模在改善语言模型训练过程中对人类偏好一致性的有效性。我们在此 URL 上发布了我们的代码。

Mar, 2024

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023