AAAIFeb, 2023
基于用户反馈日志的多轮对话策略学习
Multi-Action Dialog Policy Learning from Logged User Feedback
Shuo Zhang, Junzhou Zhao, Pinghui Wang, Tianxiang Wang, Zi Liang...
TL;DR本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。