BriefGPT.xyz
Ask
alpha
关键词
multi-action dialog policy
搜索结果 - 2
AAAI
基于用户反馈日志的多轮对话策略学习
本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。
PDF
a year ago
IJCAI
三思而后言:通过计划单次对话来改善多次对话策略
本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法,使用模型规划来模拟单动作对话,从而增强多动作预测,实现了相对于现有状态下最先进方法的 3% 提高,达到了 90.6% 的
→
PDF
2 years ago
Prev
Next