本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本篇论文主要探讨针对特定任务的语音对话系统,重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略,并以神经网络为函数逼近器的方式,探索深度强化学习算法在对话决策中的应用。
Sep, 2020
介绍了一种基于神经网络的任务导向对话系统,可以使用深度强化学习进行端到端优化,可跟踪对话状态,与知识库交互,并将查询结果整合到代理人的响应中,以成功完成任务导向对话。
Nov, 2017
本研究提出一种新的框架,可有效学习任务导向视觉对话系统的最优对话策略,并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。
Sep, 2019
使用混合专家语言模型的强化学习对话管理器表现出更大的灵活性以产生具有不同意图的合理话语,并允许强化学习专注于会话级别的对话管理。
May, 2022
本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法,利用 MoE-LM 对话模型的结构,通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。
Feb, 2023
本研究基于强化学习,建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。
Jun, 2016
本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时,发现图形神经网络具有优势,且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。
通过 Deep Dyna-Q 的强化学习框架进行对话策略学习,将对真实用户的模拟与生成的体验相结合,应用于模拟和 Human in the loop 设置中的电影票预订任务。
Jan, 2018
本文提出了一种新的训练和模型选择框架,用于模型无关的强化学习算法,使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习,选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本,且在 Atari 2600 和 Mujoco 中表现优异。
Jan, 2020