基于贝叶斯说服的高效无模型对齐

May, 2024

基于贝叶斯说服的高效无模型对齐

Efficient Model-agnostic Alignment via Bayesian Persuasion

Fengshuo Bai, Mingzhi Wang, Zhaowei Zhang, Boyuan Chen, Yinda Xu...

TL;DR通过使用较小的模型，引入一种模型不可知且轻量级的贝叶斯说服对齐框架，为对齐黑盒大模型提供高效方法。在使用该框架进行训练后，希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤，并取得优于先前模型的性能提升。

Abstract

With recent advancements in large language models (LLMs), alignment has emerged as an effective technique for keeping LLMs consensus with human intent. Current methods primarily involve direct training through Su

large language models alignment black-box models bayesian persuasion performance enhancement

发现论文，激发创造

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

鲁棒即插即用适应性的解耦对齐

我们介绍了一种低资源安全增强方法，用于对齐大型语言模型（LLMs），无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息，并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法，我们的方法在有害问题数据集上显著提高了平均防御成功率，约为 14.41％，最高可达 51.39％，在 17 个未对齐的预训练 LLMs 中，而不会损害性能。

Jun, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023