BriefGPT.xyz
大模型
Ask
alpha
关键词
offline meta reinforcement learning
搜索结果 - 3
审视我们忽略的事物:在基于上下文的离线元强化学习中驾驭任务表征的转移
通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。
PDF
a month ago
论离线元强化学习任务表示学习中的上下文分布转移
本文介绍了离线元强化学习(OMRL)的上下文基础,特别是针对 OMRL 的任务表示学习问题。我们提出了一种硬采样的策略来学习一个强大的任务上下文编码器,实验结果表明,与基线方法相比,在多个不同的连续控制任务中,使用我们的技术可以得到更强壮的
→
PDF
a year ago
离线元学习探索
通过离线数据,基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题,研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益,探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题
→
PDF
4 years ago
Prev
Next