COLINGNov, 2020

通过变分自编码器实现潜在动作空间,用于对话策略优化的 LAVA

TL;DR本文探索使用辅助任务来塑造潜变量分布的三种方式,并选择响应自编码为辅助任务,以获得更具行动性质的潜变量表示,从而支持端到端对话策略优化,并实现最先进的成功率。