BriefGPT.xyz
Ask
alpha
关键词
dialog flow
搜索结果 - 1
AAAI
基于用户反馈日志的多轮对话策略学习
本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。
PDF
a year ago
Prev
Next