Jun, 2024

奖励关键之处:面向任务的对话的逐步强化学习

TL;DR通过引入逐步奖励机制,我们的方法在理解和生成任务中对强化学习进行了扩展,实现了平衡优化,提高了任务导向对话系统的性能,并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比,我们的方法还展现了在低资源环境中的出色少样本能力。