AAAIFeb, 2023

基于用户反馈日志的多轮对话策略学习

TL;DR本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。