- ARO: 大型语言模型监督机器人文本到技能自主学习
本研究介绍了大规模语言模型辅助自主学习框架,旨在取代人类参与的机器人技能学习过程,并提供证据表明这种方法可以实现完全自主的机器人技能学习,能够在没有人类干预的情况下完成部分任务。此外,我们还分析了该方法在任务理解和优化稳定性方面的局限性。
- 从数据生成的角度探究应境学习的机制
通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统 - 深度强化学习中的时序索引作为顺序操控任务的归纳偏差
通过顺序执行不同的动作头部来学习原始技能,我们提出了一种有助于完成操作任务所需的技能学习的策略结构,在 Metaworld 任务上的测试表明,这种简单的结构优于标准策略学习方法,突显了其改进技能获取的潜力。
- 高效机器人操作技能获取的触觉主动推理增强学习
提出了一种名为触觉主动推理强化学习(Tactile Active Inference Reinforcement Learning,Tactile-AIRL)的机器人操作技能学习新方法,通过整合基于模型的技术和内在好奇心进入强化学习过程,有 - RSG:基于技能图的四足机器人快速学习自适应技能
提出了一种名为机器人技能图(RSG)的新框架,用于组织机器人的庞大的基本技能并且巧妙地重新利用它们以实现快速适应,通过发现学习背景和机器人获得的技能之间存在的隐含关系,RSG 能够提供对新任务和环境的合理技能推理,并使四足机器人能够迅速适应 - RoboGen: 通过生成式模拟释放无限数据用于自动化机器人学习
通过生成仿真系统,RoboGen 是一种生成式机器人代理,可以自动学习各种机器人技能,从而规模化地进行机器人技能学习,减少人类监督。
- 自主驱动的概念建立:具备自动语言对齐技能学习的大型语言模型代理
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主 - 通过压缩学习选项
研究多任务强化学习中的统计规律对于新任务学习的加速是有效的,而技能学习是实现这一目标的一种方式,技能学习的热门方法是使用潜在变量模型来最大化预收集的经验的可能性,结合应用于描述技能的描述长度惩罚的新目标可以使技能更好地从经验中提取共同结构, - 利用预训练技能来拓展目标勘探,用于稀疏奖励长时间尺度的目标条件加强学习
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
- 利用潜在空间先验的示范利用
本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法,以学习高层策略的加速方式,其中序列模型形成潜在空间先验,加速了高层策略的学习速度和最终性能。
- 指导技能学习和抽象以实现长远操纵
LEAGUE 是一种集成任务计划和技能学习框架,利用任务计划器的符号界面指导基于深度强化学习的技能学习,同时创建抽象状态空间以实现技能重用,并可以在任务计划系统内学习操作技能,不断提高其能力并解决更多任务。
- 离线目标条件强化学习的 $f$- 优势回归方法
提出了一种新的基于回归的离线 GCRL 算法 GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器, - ICML对抗性意图感知分层模仿学习
本文提出了一种名为 Option-GAIL 的新方法,用于长期学习任务中的技能学习,其基本思想是通过选项来建模任务层次结构,并通过生成性对抗性优化来训练策略。试验结果表明,Option-GAIL 在各种任务中表现优异。
- AAAI相对变分内在控制
本文介绍了一种能够让代理人在缺乏外部奖励的情况下,通过在环境中识别和掌握一系列不同技能来学习有用行为的技术。该技术利用相对变分内在控制(RVIC)技巧学习目标,以在改变代理人与环境之间关系的方面有区别的技能为奖励目标,生成了一组技能,这组技 - AAAI互动学习和辅助学习
本文通过引入多智能体训练框架,提出交互式学习作为一种替代奖励或演示驱动学习的方法,并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现,最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下,与人类合作执行任务并获 - 从游戏中学习潜在计划
该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习,结合自我监督控制和多样性玩耍数据集,实现了对环境中所有可用行为的连续学习,取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现,同时表现出更强的抗干扰能力和重试成功的行为。
- 自适应技能、自适应分区(ASAP)
介绍了自适应技能(ASAP)框架,它能够学习技能和如何应用技能,并能够通过适应其中应用现有学习技能的位置来解决相关新任务,同时证明了其在自然条件下收敛到局部最优解的能力,相关的 RoboCup 实验也表明了它学习如何重复利用技能以及用比每个 - 使用引导式策略搜索学习接触丰富型操作技能
本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法,该方法可以扩展最近开发的策略搜索方法,并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹,然后将这些轨迹统一到一个单一的控制策略中。