BriefGPT.xyz
Ask
alpha
关键词
policy exploration
搜索结果 - 3
DiffPoGAN:离线强化学习中基于生成对抗网络的扩散策略
离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略,利用生成对抗网络生成多样的动作分布,使用最大似然估计方法生成近似行为策略分布的数据,并引入基于鉴别器输出的额外正则化项来有效约束策略探索,实验证明在离线强化学习领域超过了其他
→
PDF
23 days ago
利用 Seq2Seq 代替流行病模型以便于贝叶斯推断
研究人员采用深度序列到序列 (seq2seq) 模型作为复杂流行病模型的准确代用模型,通过模拟季节性和长期的传播动态来预测传染病病毒的演变情景,实现了快速预测,并用于政策探索和贝叶斯推断。
PDF
2 years ago
AAAI
基于软件导师的不完美演示强化学习
本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法,通过将专家指导视为对智能体政策探索的软约束,最终转化为一个约束优化问题,并采用局部线性搜索来高效解决。在广泛的基准测试中,我们的方法比其他方法获得了更好的结果。
PDF
5 years ago
Prev
Next