Apr, 2022

动态对话策略的连续强化学习

TL;DR为了解决任务导向的对话系统在学习新知识时需要不断适应的问题,我们提出了一种动态对话策略变换器 (DDPT),它是一种能够无缝集成新知识、处理大状态空间并在暴露到未见过的领域时获得重要的零 - shot 性能的新的动态架构。我们提供一个不间断的学习算法、基线架构和度量标准来评估不间断学习模型。