通过有针对性的人类判断来提高对话代理的对齐
本研究对话机器人的语言校准能力,尤其是在表达疑虑的透明度方面进行了深入分析,发现现有的最新技术的聊天模型缺乏语言校准能力,但是我们能够从概率上准确地预测其正确性,并通过加入元认知功能来训练可控生成模型,从而获得具有显著改进的语言校准能力的对话机器人。
Dec, 2020
该研究提出了DialFRED,一个基于ALFRED基准的对话启用的具有体现指导AI的基准,其允许代理主动向人类用户提问,并利用用户响应中的附加信息来更好地完成其任务。使用人类注释的数据集和强化学习调整预先训练的提问者来解决DialFRED,并且鼓励研究人员提出和评估构建具有对话功能的体现代理的解决方案。
Feb, 2022
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如Python编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的KL散度平方根的近似线性关系。除此之外,对校准、竞争目标和OOD检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
本文提出了使用离线强化学习作为对话系统评估的一种方法,该方法基于一个静态语料库。通过训练一个离线强化学习批评家,我们展示了这种评估方法可用于各种类型的对话系统,而且与人类评判具有强相关性。
Sep, 2022
通过使用离线强化学习框架提高对话系统的人物一致性,结合监督学习的现有数据训练和奖惩特定话语,引入简化的重要性采样方法,可以改善社交聊天机器人的人物一致性和对话质量。
Oct, 2023
开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战,并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强大的监督学习基准相竞争。
Nov, 2023
通过借鉴社会科学和人工智能界的广泛研究,我们提出了一套最大量、最大质量、最大相关度、最大方式、最大善意和最大透明度的法则,旨在描述有效的人工智能对话,并为评估和改进设计提供了规范指导。
Mar, 2024
Action-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversation modeling in large language models (LLMs), particularly in the area of disambiguation and dialogue policy learning.
May, 2024
通过自我引用的AI反馈框架,允许13B Llama2-Chat模型以“最适合人类”的原则为基准,对用户指令回应进行批判,从而提供高质量的偏好反馈,并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异,实验证明该方法使13B和70B Llama2-Chat注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。
Jun, 2024