BriefGPT.xyz
Ask
alpha
关键词
offline meta-rl
搜索结果 - 3
ICML
MetaDiffuser:离线 Meta-RL 的扩散模型作为条件规划器
本文提出了一种基于任务的条件扩散规划器 (MetaDiffuser) 来解决离线 meta-RL 中通用性问题,该规划器可以生成针对任务的轨迹以在各种任务间进行规划。实验结果表明 MetaDiffuser 能够表现出优异的生成轨迹能力,优于
→
PDF
a year ago
ICLR
基于模型的离线元强化学习与正则化
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中
→
PDF
2 years ago
ICML
基于优势权重的离线元强化学习
本文介绍了离线元强化学习设置,并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法,称为 Meta-Actor Critic with Advantage Weighting (MACAW)
→
PDF
4 years ago
Prev
Next