May, 2022

驯服连续后验概率的潜在变分对话策略

TL;DR本研究使用摊还变分推理方法结合高斯变分后验分布进行强化学习,同时对训练过程进行简化,并提出正则化方法以保持响应一致性,以此在Task-oriented Dialogue中取得了最好的对话成功率,并在MultiWOZ基准测试中表现出与分类潜在方法相当的结果。