BriefGPT.xyz
Ask
alpha
关键词
multi-demonstrator
搜索结果 - 1
针对鲁棒的基于模型的离线强化学习的领域通用性
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程
→
PDF
2 years ago
Prev
Next