BriefGPT.xyz
Ask
alpha
关键词
multi-step model
搜索结果 - 2
对比价值学习:简单离线强化学习的隐式模型
本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离
→
PDF
2 years ago
AAAI
一种基于强化学习的粗细粒度问答系统
本文提出了一种基于强化学习的粗到精问答(CFQA)系统,使用多步骤的深度强化学习模型来处理文档,可以处理较短或较长的文档,相较于先前的 QA 模型,在 WIKEREADING、WIKIREADINGLONG、CNN 和 SQuAD 等四个
→
PDF
3 years ago
Prev
Next