Jul, 2022
后处理网络:使用强化学习优化管线任务定向对话系统的方法
Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement Learning
Atsumoto Ohashi, Ryuichiro Higashinaka
TL;DR本文提出了一种使用后处理网络,在不需要每个模块可微分的情况下进行强化学习,从而优化由任意方法实现的模块组成的对话系统的对话性能。通过多轮对话模拟和人类评估,证明了此方法可以提高由各种模块组成的管道系统的对话性能(使用 MultiWOZ 数据集)。