BriefGPT.xyz
大模型
Ask
alpha
关键词
out-of-distribution issue
搜索结果 - 2
使用未标记数据增强离线强化学习
该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。
PDF
21 days ago
ICML
离线强化学习的支持信任域优化
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze
→
PDF
8 months ago
Prev
Next