对话策略优化的神经用户模拟器对抗学习

Jun, 2023

Adversarial learning of neural user simulators for dialogue policy optimisation

Simon Keizer, Caroline Dockes, Norbert Braunschweiler, Svetlana Stoyanchev, Rama Doddipatla

TL;DR采用对抗训练的用户模拟器能够生成更加真实和多样化的用户行为数据，并用于训练对话系统中的策略，相比于最大似然的模拟器，能够显著提高对话系统的成功率。

Abstract

reinforcement learning based dialogue policies are typically trained in interaction with a user simulator. To obtain an effective and robu