本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统,并在使用谷歌智能助手的实验中,使用众包数据进行训练,显著超越了强化模型,证明其对于自然人对话有较高的开放性和可行性。
Jul, 2022
介绍了一种基于神经网络的任务导向对话系统,可以使用深度强化学习进行端到端优化,可跟踪对话状态,与知识库交互,并将查询结果整合到代理人的响应中,以成功完成任务导向对话。
Nov, 2017
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标方面提供显着的改进。
Sep, 2019
本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容,并通过 multi-task learning 提高该方法的泛化能力和适应性,实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。
Jun, 2022
本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法,通过协作游戏中的自然语言对话,演示了 'visual' 对话代理具有自主创建基于视觉属性的语言和沟通的能力,并发现强化学习有助于代理人的团队合作,促进信息交流和提高效率。
Mar, 2017
本研究提出一种新的框架,可有效学习任务导向视觉对话系统的最优对话策略,并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。
本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法,利用 MoE-LM 对话模型的结构,通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。
Feb, 2023
本论文提出了一种结合强化学习和情感编辑约束的会话内容生成模型,将回复分成三个从预生成的关键词中获得的子句,并使用情感编辑器进一步优化最终回复,实验表明该模型可以提高回复的流畅度、逻辑相关性和情感相关性。
Apr, 2019
通过在线收集人类反馈数据,使用离线强化学习算法训练对话模型,识别并融合对话线索来产生更好的对话。
Oct, 2020
本研究利用强化学习算法构建了一个逆对话生成器,能够有效发现可以操纵神经对话模型输出的输入方法,并提出了该模型的安全性问题。