May, 2023

面向任务导向对话系统的异步更新强化学习框架

TL;DR提出了异步更新强化学习框架(AURL),通过协作设置异步更新 DST 模块和 DP 模块,并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题,并引入多个用户模型增加对话的多样性,实验表明,在公共数据集 SSD-PHONE 上,该方法使对话成功率提高了 31.37%。