BriefGPT.xyz
大模型
Ask
alpha
关键词
learned policy
搜索结果 - 3
从零开始学习整数序列的程序综合
我们提出了一种自学习方法,用于从整数序列合成程序。我们的系统测试了在 OEIS 表格上,通过基本操作并在没有人工训练例子的情况下,自主发现了 27987 个序列的解决方案。
PDF
2 years ago
面向通用机器人学习的深度目标中心表示
本文提出了一种方法来解决复杂开放环境下机器人操作的问题,该方法基于先前训练的通用视觉模型作为感知系统的对象先验,并引入了一个基于对象的注意机制来确定相关对象,通过少数轨迹或演示将这些对象纳入学习策略,使用强化学习可以学习多种操作任务。
PDF
7 years ago
从零开始学习基于模型的规划
介绍了一种基于想象的规划器,可以学习构建、评估和执行计划,并可通过学习策略等手段进行多方案模拟,联合优化外部收益和计算成本等目标。
PDF
7 years ago
Prev
Next