BriefGPT.xyz
大模型
Ask
alpha
关键词
ood transition dynamics
搜索结果 - 1
超越 OOD 状态行为:支持跨域离线强化学习
本文提出了交叉领域离线强化学习方法 BOSA,通过利用来自不同转移动态(环境)的源领域数据,解决了离线 RL 中存在的数据效率不高的问题,并通过实验证明其在离线数据效率方面的有效性。
PDF
a year ago
Prev
Next