本研究提出了一种自学习系统,使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误,并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式,进行可扩展的改进,实现了大规模对话式人工智能系统的自主学习,能显著降低过多次错误和缺陷。
Nov, 2019
本研究提出自我反馈聊天机器人,通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力,并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。
Jan, 2019
本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。
May, 2023
通过使用自动生成的语言反馈以及改进的决策变压器架构,在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。
Dec, 2023
本文对利用人类反馈来提高自然语言生成的研究进行了综述。通过介绍反馈的形式和目标,讨论了直接使用反馈或训练反馈模型两种方法在训练和解码过程中的应用。此外,我们还探讨了与反馈收集相关的现有数据集和问题,并提供了人工智能反馈领域的概述。
本文旨在探索通过学习如何构造输入句子,从而使黑盒神经会话模型生成所期望的输出,并提出了一个基于强化学习的模型,通过在经典模型上的实验验证了该方法的有效性,从而揭示了神经会话模型被操纵的潜力,启发和开展神经对话模型的防御策略。
May, 2020
通过从自然语言反馈中学习,本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型,以获得人类水平的摘要能力。
Apr, 2022
通过学习用户与已部署模型之间的自然对话,我们研究了提高社交对话代理的方法,无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot(Xu 等,2023 年)的公开发布的部署数据。人工评估表明,我们的新模型在基线回复上有所改进;然而,我们发现一些代理信号也可能导致具有不良特性的生成。例如,优化对话长度可能导致比基线更具争议性或不友好的生成,而优化积极情感或反应则可能减少这些行为。
Jul, 2023
本文提出了一种基于对抗训练的方法用于生成开放领域对话,该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题,同时训练一个生成模型和一个鉴别器,用于评估生成的对话是否和人类对话相似,并将鉴别器的输出作为奖励信号,并进一步提出了一种评估模型 - 对抗性评估模型,该模型可避免一系列潜在的问题。实验结果表明,基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。
Jan, 2017
通过人类的自由文本反馈进行学习对于对话系统至关重要,本文通过研究多个常用的对话数据集,包括 MultiWoZ,SGD,BABI,PersonaChat,Wizards-of-Wikipedia 和 Self-Feeding Chatbot 的人机分离数据集,发现了数据集的组成情况,误差类型,用户响应类型以及它们之间的关系,并研究了将这些数据包含在语言生成模型 (response generation) 中的影响。
Oct, 2023