BriefGPT.xyz
Ask
alpha
关键词
policy architectures
搜索结果 - 2
LIBERO:针对终身机器人学习的知识转移基准测试
LIBERO 是一个新的机器人操作的终身学习基准,提出了五个核心研究主题: (1)如何有效地传递申明性知识、程序性知识或两者混合;(2)如何设计有效的政策架构和决策算法;(3)终身学习与任务排序的关系;(4)模型预训练对终身学习的影响;(5
→
PDF
a year ago
ICLR
深度集合用于 RL 中的泛化
本文研究了在自然语言引导下的强化学习中,将以对象为中心的表现编码到奖励函数和策略架构中的想法。通过使用受深度集合启发的对象排列不变网络和门控注意机制的组合,我们在二维过程生成的世界中显示出这些结构对于分布外的目标具有强大的泛化能力,同时我们
→
PDF
4 years ago
Prev
Next