Jul, 2022

后处理网络:使用强化学习优化管线任务定向对话系统的方法

TL;DR本文提出了一种使用后处理网络,在不需要每个模块可微分的情况下进行强化学习,从而优化由任意方法实现的模块组成的对话系统的对话性能。通过多轮对话模拟和人类评估,证明了此方法可以提高由各种模块组成的管道系统的对话性能(使用 MultiWOZ 数据集)。