IJCAIApr, 2022

三思而后言:通过计划单次对话来改善多次对话策略

TL;DR本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法,使用模型规划来模拟单动作对话,从而增强多动作预测,实现了相对于现有状态下最先进方法的 3% 提高,达到了 90.6% 的可靠任务成功率。