三思而后言：通过计划单次对话来改善多次对话策略

IJCAIApr, 2022

三思而后言：通过计划单次对话来改善多次对话策略

"Think Before You Speak": Improving Multi-Action Dialog Policy by Planning Single-Action Dialogs

Shuo Zhang, Junzhou Zhao, Pinghui Wang, Yu Li, Yi Huang...

TL;DR本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法，使用模型规划来模拟单动作对话，从而增强多动作预测，实现了相对于现有状态下最先进方法的 3% 提高，达到了 90.6% 的可靠任务成功率。

Abstract

multi-action dialog policy (MADP), which generates multiple atomic dialog actions per turn, has been widely applied in task-oriented dialog systems to provide expressive and efficient system responses. Existing M

multi-action dialog policy pedp dialog systems model-based planning task success rate

发现论文，激发创造

大规模语言模型驱动的对话代理的即插即用策略规划器

本文提出了一种用于策划大型语言模型（LLMs）主动对话问题的新型对话策略规划范式，名为 PPDPP，通过可调节的语言模型插件来提高 LLMs 的主动性。实验证明，在谈判、情感支持和辅导对话等三个不同的主动对话应用中，PPDPP 相对于现有方法始终有显著的性能优势。

Nov, 2023

考虑同一上下文下多个适当回复的任务导向型对话系统

提出了一个名为 MADA 的多行为数据增强框架，用于生成多样化的对话回复，该框架利用了对话的一对多属性，并改善了对话策略及回复多样性的表现。

Nov, 2019

使用多维建模适应新动作集的对话策略调整

使用多维方法对话管理加速训练，通过预先训练的任务无关策略来实现转移学习，从而在有限的训练数据下实现更好的性能，人工用户评估表明多维系统（针对目标情境的有限训练数据进行适应）比一维基准（在同样的训练数据上不进行适应）提高了 7％的成功率。

Apr, 2022

跨对话任务的少样本通用化

我们提出使用 Recurrent Embedding Dialogue Policy（REDP）和 Neural Turing Machine 技术，对机器人会话管理进行研究。研究结果表明 REDP 能够有效地处理顾客的不良行为，并在 bAbI 对话任务中实现了 100％的测试准确率。

Nov, 2018

基于用户反馈日志的多轮对话策略学习

本文提出了一种基于 BanditMatch 的多动作对话策略学习方法，通过利用显式和隐式的转折用户反馈来提高策略学习效果，该方法综合了半监督学习和万能学习的混合目标。

Feb, 2023

检索与记忆：使用多动作记忆的对话策略学习

本研究提出了一种 “检索和记忆” 框架，该框架首先使用神经上下文感知检索模块从训练集中检索多个候选系统操作，然后使用存储增强的多解码器网络在候选操作的条件下生成系统操作的方法，该方法能降噪自适应选择候选操作中的关键信息。实验表明该方法在上下文到回应生成任务中具有竞争力。

Jun, 2021

像人一样规划：对话规划的双过程框架

通过引入心理学中的双过程理论，我们提出了双过程对话规划（DPDP）框架，结合直觉策略模型和深思熟虑的蒙特卡洛树搜索机制，通过线下强化学习和增强的实时学习实现了效率和策略深度之间的动态平衡，并在各种对话任务中实验证实了 DPDP 在实现高质量对话和操作效率上的卓越性。

Jun, 2024

利用明确的过程说明来提高数据效率的行动预测

本文提出了一种数据高效的解决方案，将知识检索模块与大型语言模型相结合，利用代理指南中的显式指令构建对话系统，并通过半监督预训练方案进行训练，同时评估在行动状态跟踪和工作流发现两个对话任务中的表现，结果表明程序化知识增强提高了在低数据密度下的准确性。

Jun, 2023

任务导向式对话的多动作策略建模

本文比较了多种模型在预测每个对话回合多个 Dialog Management 决策动作方面的性能，并提出了一种基于 gCAS 模型的新策略模型，实验结果表明 gCAS 模型优于其他模型。

Aug, 2019

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024