Sep, 2022

离线强化学习对话评估

TL;DR本文提出了使用离线强化学习作为对话系统评估的一种方法,该方法基于一个静态语料库。通过训练一个离线强化学习批评家,我们展示了这种评估方法可用于各种类型的对话系统,而且与人类评判具有强相关性。