面向任务导向对话系统的预算策略学习
基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。
Jan, 2024
通过 Deep Dyna-Q 的强化学习框架进行对话策略学习,将对真实用户的模拟与生成的体验相结合,应用于模拟和 Human in the loop 设置中的电影票预订任务。
Jan, 2018
本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量,实验表明与 DDQ 相比,D3Q 的性能得到了显著提高,并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。
Aug, 2018
本研究使用强化学习训练任务完成对话代理人,在集成世界模型的基础上通过使用模拟经验有效提高训练效率,通过引入开关和主动学习改进 Deep Dyna-Q 框架,提出了 Switch-based Active Deep Dyna-Q(Switch-DDQ)算法,同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。
Nov, 2018
本篇论文主要探讨针对特定任务的语音对话系统,重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略,并以神经网络为函数逼近器的方式,探索深度强化学习算法在对话决策中的应用。
Sep, 2020
本文针对复杂任务对话代理的构建问题,如旅行规划,通过将任务公式化为基于马尔可夫决策过程的选项数学框架,并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器,包括顶层对话策略、低层对话策略和全局状态跟踪器,实验结果表明该方法在模拟和真实用户的旅行规划任务中,相比于三个基于手工规则和基于平面深度强化学习的基准系统,有显著的改进。
Apr, 2017
本文介绍了一种采用多智能体对话策略学习的方法,用于同时训练系统和用户策略,并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明,该方法能够通过对话交互,使两个智能体成功完成任务。
Apr, 2020
提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法,该训练范式提供了有效的探索和更好的泛化能力,相比现有的集成模型,我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50%,同时还包括系统性的研究以展示我们 RL 算法的探索策略。
Jun, 2018
本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统,演示了在深度强化学习下优于高斯过程方法,可以有效地训练部分可观察马尔可夫决策过程的对话系统,有效提高学习速度,所有实验在 DSTC2 餐厅领域数据集上进行。
Jun, 2016
提出 GDP-Zero,该方法使用 Open-Loop MCTS 进行目标导向的对话策略规划,不需要进行任何模型训练,其响应在交互式评估中被认为是 ChatGPT 的 59.32%,而在说服力方面更有优势。
May, 2023