Jul, 2023

为什么导向式对话策略学习表现良好?理解对抗性学习及其替代方案的作用

TL;DR本文介绍了一种通过分析对话策略和奖励估计器的目标函数,从而消除对抗性学习对奖励估计和对话策略学习的影响,同时保留其优势的方法,该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。