BriefGPT.xyz
Ask
alpha
关键词
semi-supervised policy learning
搜索结果 - 1
通过随机奖励估计的半监督对话策略学习
本文提出了用于半监督策略学习的新型奖励学习方法,该方法借助动态模型来计算奖励值,并结合动作嵌入进行奖励函数的泛化,从而优于其他竞争性策略学习基线,适用于任务导向型对话系统。
PDF
4 years ago
Prev
Next