ACLJul, 2022

任务完成对话系统的反高估对话策略学习

TL;DR本论文提出了一种动态部分平均估计器(DPAV),将其纳入深度 Q 网络作为对话策略,解决了基于强化学习的对话策略中过高估计问题,实验表明该方法在三个不同领域的对话数据集上具有与顶尖基线相当的结果,与其他方法相比,具有更低的计算负荷,同时还从理论上证明了该方法的收敛性和偏差上下界。