对话机器人性能提升的调整

Jun, 2024

Alignment For Performance Improvement in Conversation Bots

Raghav Garg, Kapil Sharma, Shrey Singla

TL;DR本文研究了对话代理（即聊天机器人）中的对齐方法与单独指示微调相比，在预定指导方针或 “防护轨道” 中可以实现更好的依从性。它探讨了传统的训练方法，如指示微调以及直接对齐方法（例如 Identity Preference Optimization（IPO）和 Kahneman-Tversky Optimization（KTO））的最新发展。文章重点强调了对齐技术在指导微调之前和之后的有效性，以说明它们在需要严格遵守规定规则的领域（如客户关怀）中优化对话机器人的潜力。

Abstract

This paper shows that alignment methods can achieve superior adherence to guardrails compared to instruction fine-tuning alone in

alignment methods instruction fine-tuning conversational agents guardrails customer care

发现论文，激发创造

即时对齐：将聊天机器人行为调整到已建立的规范上

本文旨在将大型语言模型与不断变化、复杂多样的人类价值观（例如社会规范）进行对齐。为了解决这个问题，我们提出了即时偏好优化（OPO）方法，它是一种实时对齐方法，可以通过外部记忆存储已建立的对齐规则，有效约束语言模型的行为，实现人类价值观的便捷更新和定制。我们还介绍了一种可扩展的评估方法，更有效地评估提出的方法。在法律和道德领域的人工注释和自动生成问题的实验结果表明了提出的 OPO 方法的有效性。我们在该 URL 上公开发布了代码和数据。

Dec, 2023

AI 对齐对话：支持代理的 AI 对齐交互式方法

本文介绍了一种新的 AI 与人类协作的方式 ——AI Alignment Dialogues，通过对家务机器人的机器人控制台，把用户与机器人直接联系起来，实现对人工智能与人的对齐。实验结果显示这种方式可以实现更高效、更透明的人机交互。

Jan, 2023

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

与人工智能进行对话：将语言模型与人类价值观对齐

本文探讨了大规模语言技术在人类与对话代理之间的应用，提出了几个步骤以确保人类价值观得到贯彻，并探索了如何通过对话规范来协调对话代理与人类之间的通信。

Sep, 2022

面向会话式 AI 系统的受控自学习的受限策略优化

本研究提出了一种可扩展的框架处理个别领域的细粒度探索目标，通过用户定义的限制来确保商业关键领域的政策偏差较少，并将更多的探索预算分配到音乐等领域，提出的方法通过一个元目标调整约束违规惩罚项的自适应，鼓励领域间平衡的约束满足，实验结果表明该方法在政策价值和约束满足率之间实现了最佳平衡。

Sep, 2022

基于贝叶斯说服的高效无模型对齐

通过使用较小的模型，引入一种模型不可知且轻量级的贝叶斯说服对齐框架，为对齐黑盒大模型提供高效方法。在使用该框架进行训练后，希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤，并取得优于先前模型的性能提升。

May, 2024

AI 人格

本研究论文探讨了在组织环境中将大型语言模型（LLMs）与人类用户对齐的不断发展的情况，超出了基本对齐的范畴，提出了为语言模型提供 “人格对齐” 的想法。通过原始案例研究，我们展示了为人工智能进行人格微调的必要性，并提出了将人类设计的测试应用于人工智能、工程专门的人工智能人格测试以及塑造适应组织角色的人工智能人格等引人思考的问题。该论文为 AI 人格对齐这一新兴领域的讨论和发展提供了起点，为未来在人与机器协同共存和合作的探索奠定了基础。

Dec, 2023

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

人机互动和人人机互动中词汇对齐与可教导机器人的比较

通过基于数据驱动的共享表达概念的对齐度量，比较了一对一的人机互动和协作的人机人互动，发现与可教授机器人的语言对齐在一对一的人机互动场景中比协作的人机人互动场景中更为突出，同时文中还指出了语言对齐和人际关系之间的关系更加复杂。

Sep, 2022

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022