通过有针对性的人类判断来提高对话代理的对齐

Sep, 2022

通过有针对性的人类判断来提高对话代理的对齐

Improving alignment of dialogue agents via targeted human judgements

Amelia Glaese, Nat McAleese, Maja Trębacz, John Aslanides, Vlad Firoiu...

TL;DR利用强化学习和人类反馈训练信息检索对话代理程序Sparrow，并在模型语句询问用户偏好时提供支持性证据, 比Prompted language baselines更有帮助、更正确和更无害，但需要注意分布偏差。

Abstract

We present Sparrow, an information-seeking dialogue agent trained to be more helpful, correct, and harmless compared to prompted language model baselines. We use reinforcement learning from →

发现论文，激发创造

提高回复和角色真实事实之间的事实一致性

通过增加奖励机制，使用强化学习方法来提高响应与用户角色特征事实之间的一致性，从而促进神经模型的响应生成能力。

Apr, 2020

通过语言校准减少对话代理的过度自信

本研究对话机器人的语言校准能力，尤其是在表达疑虑的透明度方面进行了深入分析，发现现有的最新技术的聊天模型缺乏语言校准能力，但是我们能够从概率上准确地预测其正确性，并通过加入元认知功能来训练可控生成模型，从而获得具有显著改进的语言校准能力的对话机器人。

Dec, 2020

DialFRED: 嵌入式指令跟随的对话驱动代理

该研究提出了DialFRED，一个基于ALFRED基准的对话启用的具有体现指导AI的基准，其允许代理主动向人类用户提问，并利用用户响应中的附加信息来更好地完成其任务。使用人类注释的数据集和强化学习调整预先训练的提问者来解决DialFRED，并且鼓励研究人员提出和评估构建具有对话功能的体现代理的解决方案。

Feb, 2022

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如Python编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的KL散度平方根的近似线性关系。除此之外，对校准、竞争目标和OOD检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

离线强化学习对话评估

本文提出了使用离线强化学习作为对话系统评估的一种方法，该方法基于一个静态语料库。通过训练一个离线强化学习批评家，我们展示了这种评估方法可用于各种类型的对话系统，而且与人类评判具有强相关性。

Sep, 2022

利用离线强化学习构建具有一致性个性的对话代理

通过使用离线强化学习框架提高对话系统的人物一致性，结合监督学习的现有数据训练和奖惩特定话语，引入简化的重要性采样方法，可以改善社交聊天机器人的人物一致性和对话质量。

Oct, 2023

通过少量专家示范融合奖励函数，实现忠实准确的知识导向对话生成

开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战，并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强大的监督学习基准相竞争。

Nov, 2023

对话中的语言模型：人工智能与人类互动的交流法则

通过借鉴社会科学和人工智能界的广泛研究，我们提出了一套最大量、最大质量、最大相关度、最大方式、最大善意和最大透明度的法则，旨在描述有效的人工智能对话，并为评估和改进设计提供了规范指导。

Mar, 2024

学习澄清：基于行动对比自我训练的多轮对话

Action-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversation modeling in large language models (LLMs), particularly in the area of disambiguation and dialogue policy learning.

May, 2024

从自我参照AI反馈中对齐大型语言模型的一个通用原则

通过自我引用的AI反馈框架，允许13B Llama2-Chat模型以“最适合人类”的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使13B和70B Llama2-Chat注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024