CHAI: 一种基于离线强化学习的面向任务型对话的聊天机器人 AI

Apr, 2022

CHAI: 一种基于离线强化学习的面向任务型对话的聊天机器人 AI

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

Siddharth Verma, Justin Fu, Mengjiao Yang, Sergey Levine

TL;DR本文讨论使用离线强化学习代替在人类对话中的试错学习来训练对话代理，结果表明最近发展的离线强化学习与语言模型相结合可以产生更好地实现任务目标的逼真对话代理。

Abstract

Conventionally, generation of natural language for dialogue agents may be viewed as a statistical learning problem: determine the patterns in human-provided data and generate appropriate responses with similar statistical properties. However, dialogue can also be regarded as a goal dir

natural language generation dialogue agents reinforcement learning offline learning language models

发现论文，激发创造

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

人机对话学习

本文探讨了使用增强学习的方式，通过与人类交互并接受其反馈来提高对话代理的能力，模拟了在人工环境中的各种学习情况，介绍了适用于此类学习的模型，并通过机械土耳其实验验证了此方法。

Nov, 2016

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

CHAI-DT: 一个鼓励对话生成人工智能代理主动参与协同创作的框架

本文探讨了在商业创新和合作创造背景下，利用生成 AI 模型在面向小组的协作框架中增强解决问题和构思的潜力，并提出了一种新的提示技术，通过使用受传统人际促进和指导方法启用 ChatGPT 参与设计思维，实验表明聊天 GPT 有能力为 Design Thinking 活动作出上下文特定的、有用的和创造性的输入。文中提出了使用生成 AI 模型进行联合创新构思的潜在益处、限制和风险，提供了未来研究的建议。

May, 2023

利用离线强化学习构建具有一致性个性的对话代理

通过使用离线强化学习框架提高对话系统的人物一致性，结合监督学习的现有数据训练和奖惩特定话语，引入简化的重要性采样方法，可以改善社交聊天机器人的人物一致性和对话质量。

Oct, 2023

离线强化学习在对话回复生成中的有效性

研究通过离线强化学习方法在对话响应生成中最大化序列级目标，对多个数据集、模型和度量进行全面评估，离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。

Jul, 2023

面向目标导向的代理程序：通过对话观察演化问题

通过对话训练深度 Q - 网络（Deep Q-Network，DQN）为基础的聊天机器人架构，以解决用户所观察不到的问题，从而在不断演变的问题中完成解决。该论文探讨了训练方法（如课程学习）对模型性能的影响，以及在环境复杂性增加的情况下，修改奖励函数的效果。

Jan, 2024

如果您愿意，请多聊聊：动态线索词计划以延长对话

通过引入多轮提示词和强化学习方法来建立开放式的多轮对话系统，优化对话流程建模，提高生成响应的质量，相关实验结果验证优于竞争基线模型。

Nov, 2018