ICLRFeb, 2023

奖励的神奇能力及其驯服之法:基于任务导向对话系统的奖励学习案例研究

TL;DR本文介绍了两种常见的奖励函数学习方法,并使用这些方法指导 end-to-end ToD 代理的训练,在 Multiwoz 2.0 数据集上取得了有竞争力的结果。