May, 2023
面向任务导向对话系统的异步更新强化学习框架
An Asynchronous Updating Reinforcement Learning Framework for
Task-oriented Dialog System
TL;DR提出了异步更新强化学习框架(AURL),通过协作设置异步更新DST模块和DP模块,并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题,并引入多个用户模型增加对话的多样性,实验表明,在公共数据集SSD-PHONE上,该方法使对话成功率提高了31.37%。