即时对齐：将聊天机器人行为调整到已建立的规范上

Dec, 2023

即时对齐：将聊天机器人行为调整到已建立的规范上

Align on the Fly: Adapting Chatbot Behavior to Established Norms

Chunpu Xu, Steffi Chern, Ethan Chern, Ge Zhang, Zekun Wang...

TL;DR本文旨在将大型语言模型与不断变化、复杂多样的人类价值观（例如社会规范）进行对齐。为了解决这个问题，我们提出了即时偏好优化（OPO）方法，它是一种实时对齐方法，可以通过外部记忆存储已建立的对齐规则，有效约束语言模型的行为，实现人类价值观的便捷更新和定制。我们还介绍了一种可扩展的评估方法，更有效地评估提出的方法。在法律和道德领域的人工注释和自动生成问题的实验结果表明了提出的 OPO 方法的有效性。我们在该 URL 上公开发布了代码和数据。

Abstract

In this paper, we aim to align large language models with the ever-changing, complex, and diverse human values (e.g., social norms) across time and locations. This presents a challenge to existing →

language models alignment human values on-the-fly preference optimization evaluation

发现论文，激发创造

对话机器人性能提升的调整

本文研究了对话代理（即聊天机器人）中的对齐方法与单独指示微调相比，在预定指导方针或 “防护轨道” 中可以实现更好的依从性。它探讨了传统的训练方法，如指示微调以及直接对齐方法（例如 Identity Preference Optimization（IPO）和 Kahneman-Tversky Optimization（KTO））的最新发展。文章重点强调了对齐技术在指导微调之前和之后的有效性，以说明它们在需要严格遵守规定规则的领域（如客户关怀）中优化对话机器人的潜力。

Jun, 2024

BPO：通过遵守行为近度增强在线偏好学习 LLM

在线偏好优化（BPO）是一种特定的在线 DAP 算法，通过与行为语言模型（Behavior LLM）接近，在训练 LLM 的同时提高对人类参考文本的性能。

Jun, 2024

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

与人工智能进行对话：将语言模型与人类价值观对齐

本文探讨了大规模语言技术在人类与对话代理之间的应用，提出了几个步骤以确保人类价值观得到贯彻，并探索了如何通过对话规范来协调对话代理与人类之间的通信。

Sep, 2022

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

群体偏好优化：大型语言模型的少样本对齐

利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理计算资源的需求。

Oct, 2023

大型语言模型的人类对齐通过在线偏好优化

确保语言模型输出与人类偏好的一致性对于保证用户的有用、安全和愉快的体验至关重要。本文中，我们展示了两种最近对齐方法：Identity Policy Optimisation (IPO) 和 Nash Mirror Descent (Nash-MD) 之间的等价性，并引入了一种名为 IPO-MD 的 IPO 推广算法，它利用了 Nash-MD 提出的正则化抽样方法。

Mar, 2024

黑盒提示优化：无需模型训练对齐大型语言模型

通过黑盒提示优化（BPO）进行对齐，使得大型语言模型（LLMs）更好地遵循用户指令，以最佳方式实现用户意图，而无需更新 LLMs 的参数，并且 BPO 对齐的 ChatGPT 在胜率上比原始版本提高了 22％，GPT-4 提高了 10％。

Nov, 2023