SoFA: 通过优先规则遵循进行实时隐蔽对齐

Feb, 2024

SoFA: 通过优先规则遵循进行实时隐蔽对齐

SoFA: Shielded On-the-fly Alignment via Priority Rule Following

Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu...

TL;DR该论文引入了一种新的对齐范式，即优先规则遵循，通过将规则定义为每个对话中的主要控制机制，并将其置于用户指令之上，来解决大语言模型（LLMs）中的对齐问题。作者提出了 PriorityDistill 方法，通过从 LLM 模拟中提取优先遵循信号，确保规则的稳健整合和遵守。实验证明，该方法不仅有效地最小化了错误对齐，而且能够平稳适应各种未见规则，确保其免受劫持并获得适当的模型响应。

Abstract

The alignment problem in Large Language Models (LLMs) involves adapting them to the broad spectrum of human values. This requirement challenges existing alignment methods due to diversity of preferences and regulatory standards. This paper introduces a novel alignment paradigm,

alignment problem large language models (llms)priority rule following prioritydistill rule integration and adherence

发现论文，激发创造

参数高效偏好对齐技术的深入探讨

对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。

Jun, 2024

LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

通过研究模型对有毒提示的脆弱性和拒绝模式的统计，提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。

Jun, 2024

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

SALMON：自我对齐与遵循原则的奖励模型

该研究提出了一种名为 SALMON 的新方法，使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，通过调整原则控制奖励模型的偏好，进而影响强化学习训练的策略的行为，消除了对在线人类偏好收集的依赖，其在各种基准数据集上显著超越了几种最先进的人工智能系统，包括 LLaMA-2-Chat-70b，提高了监督效率、可控性和可扩展性。

Oct, 2023

鲁棒即插即用适应性的解耦对齐

我们介绍了一种低资源安全增强方法，用于对齐大型语言模型（LLMs），无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息，并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法，我们的方法在有害问题数据集上显著提高了平均防御成功率，约为 14.41％，最高可达 51.39％，在 17 个未对齐的预训练 LLMs 中，而不会损害性能。

Jun, 2024

辩证统一：解决 LLM 的 3H 与安全威胁的张力

利用人工智能反馈，提出了一种新颖的方案：辩证对齐（Dialectical Alignment）模型，用于调整大语言模型在不同外部证据冲突下的内部状态，以抵御被污染的数据攻击，提高系统的安全性。

Mar, 2024

让大型语言模型能够从规则中学习

通过从详细的规则中提取知识并显式编码到大型语言模型的参数中，我们提出了一种新的学习范式，即规则蒸馏，并证明这种方法在样本大小和泛化能力方面比基于示例的学习更加高效。

Nov, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024