- 使用基于模型的离线强化学习解决长期任务
通过使用学习模型生成虚拟轨迹来解决学习有限、静态数据挑战的基于模型的离线强化学习方法,通过使用期望回归和 λ-returns 来缓解模型轨迹中的高偏差,在处理长时程任务方面明显优于以前的方法,同时与基于模型和无模型的方法在评估任务上效果相当 - 双向可达层次强化学习与相互响应策略
通过互相共享信息和错误修正,我们提出了一种具有双向可达性的层次强化学习算法(BrHPO),该算法在长时间跨度任务中优于其他现有的层次强化学习方法,且具有更高的探索效率和鲁棒性。
- 带大型语言模型线索的世界模型用于目标实现
通过将提出的具有示意性子目标的语言模型与模型回滚相结合,我们提出了一种新的多模态的基于模型的强化学习方法,名为大语言模型梦境,用以鼓励在具有挑战性任务中发现和达成目标,从而对各种困难的、稀疏奖励的环境进行了大量实验,并显示出优于近期方法的性 - 喊叫您的机器人:从语言纠正中实时改进
通过语言反馈不断改进高层策略,使机器人在复杂的、需要长程规划的任务中表现得更加出色,无需额外的远程操作。
- 关于基于语言条件技能发现的互信息思考与模仿学习
通过数学方法评估语言条件化策略学习框架中技能与语言指令之间的关系,提出了一种称为语言条件化技能发现(LCSD)的端到端模仿学习方法,通过最大化语言和技能之间的互信息,在无监督的情况下学习离散潜在技能并利用技能序列重构高级语义指令,通过在 B - AAAISemTra: 跨领域零样本策略适应的语义技能转换器
该研究探索了语义技能的零 - shot 适应能力,在跨领域环境中,在交织的多模态片段中,通过用户输入可触发不同领域的新的远程任务。通过语义技能翻译框架 SemTra,该框架利用一组多模态模型从片段中提取技能,并利用预训练语言模型的推理能力将 - 简单层次规划与扩散
鉴于传统的扩散生成方法在建模离线数据集中的轨迹方面已经证明有效,然而,由于计算挑战和泛化能力的问题,特别是捕捉长期任务的时间抽象方面,我们介绍了一种名为 “层次性扩散器” 的简单、快速且出人意料地有效的规划方法,它结合了层次化和基于扩散的规 - LHManip:用于杂乱桌面环境中的长时程语言驱动操作任务的数据集
通过提供具有多步骤的长期任务的数据集,作者展示了语言条件的模仿学习和离线强化学习在机器人操作中的重要性和表现。
- AAAIGO-DICE:目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计
GO-DICE 是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务,通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略,以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法,在越来越具有挑战性的 Mujoco - 通过集成程序合成和状态机来解决长期任务
提出了 Program Machine Policies (POMPs),它集成了程序化强化学习和状态机策略的优势,能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序,并将其用作状态机的模式,学习过渡函数以在模式程序之间进行 - JARVIS-1: 开放世界多任务智能体及伴有增强记忆的多模态语言模型
JARVIS-1 是一个在开放世界中能够感知多模态输入、生成复杂计划和执行控制的智能体,在 Minecraft 宇宙中完成了超过 200 个任务,包括了从入门到中级难度的任务,并且在长期目标挖掘任务中取得了无与伦比的 12.5% 完成率,比 - 制作一个甜甜圈:零样本变形物体操作的语言引导层次 EMD 空间规划
这项研究介绍了一种无需演示的层次规划方法,能够处理复杂的长期任务,并展示了在面对新颖和以前未遇到的复杂任务时,模型具备强大的泛化能力。
- 自我提升技能:借助大型语言模型指导学习解决新任务
提出了一种名为 BOSS 的方法,利用大语言模型引导技能引导启动阶段,无需奖励反馈即可实现新任务的学习,从而在新环境中零尝试执行未见过的长远任务方面优于先前的无监督技能获取方法。
- 组合式层次规划的基础模型
通过在空间和时间尺度上进行分层推理,我们提出使用多个专家基础模型联合解决长期目标任务的分层规划模型,通过语言、视觉和动作数据的训练,构建符号化的计划,并通过视觉 - 动作控制将计划转化为执行动作,以实现在新环境中做出有效决策。
- 连续灵巧性:将灵巧策略链接起来实现长程操纵
基于强化学习的连续灵巧系统,通过链式连接多个灵巧策略来实现长期目标,克服了任务空间维度高和复杂的动力学组合的挑战,并且能够在现实世界中应用于装备有灵巧手的机器人。
- 基于人类评估反馈的原始技能基础机器人学习
SEED 是一个结合了人类反馈的强化学习和基于原始技能的强化学习的新框架,通过减少人类的工作量和增加训练过程的安全性,有效地解决了长期任务中的样本低效性和安全性问题。SEED 在五个具有不同复杂度的操作任务上表现出了比其他强化学习算法更高的 - RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习
本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horiz - NetHack 难以攻破
本文研究了神经政策学习在 NetHack 游戏中的表现,分析了符号代理与神经代理在这种环境中的性能差距,并通过建立一个大规模的演示数据集,在动作层次结构、神经架构增强和强化学习与模仿学习的整合方面进行了详细研究。结果表明,我们的神经代理在离 - E-MAPP: 高效的并行程序指导多智能体强化学习
通过使用并行程序指导多个智能体高效完成需要规划 10 个以上阶段的任务,本文提出了一种名为 E-MAPP 的增强型多智能体强化学习框架,该框架整合了程序的结构信息,促进了基于程序语义的协作行为,并通过任务分配器提高了时间效率,在 Overc - STAP: 无序列任务策略
提出了一种可扩展的框架 STAP,可在规划时间内协调技能几何依赖,以解决训练期间任何技能都未见过的长视野任务,通过最大化既包括在计划中的所有技能的联合成功,该优化问题近似于基础真相计划的可行性,并减少了目光短浅的行为