深度强化学习中的时序索引作为顺序操控任务的归纳偏差

Jan, 2024

深度强化学习中的时序索引作为顺序操控任务的归纳偏差

On Time-Indexing as Inductive Bias in Deep RL for Sequential Manipulation Tasks

M. Nomaan Qureshi, Ben Eisner, David Held

TL;DR通过顺序执行不同的动作头部来学习原始技能，我们提出了一种有助于完成操作任务所需的技能学习的策略结构，在 Metaworld 任务上的测试表明，这种简单的结构优于标准策略学习方法，突显了其改进技能获取的潜力。

Abstract

While solving complex manipulation tasks, manipulation policies often need to learn a set of diverse skills to accomplish these tasks. The set of skills is often quite multimodal - each one may have a quite disti

manipulation tasks manipulation policies skill learning policy architecture primitive skills

发现论文，激发创造

连续控制中前瞻探索的模型学习

本文提出了一种探索方法，将先前学习的基本技能及其动态与前瞻性搜索相结合，用于操作策略的强化学习，并且表明该方法比当前最先进的 RL 方法更快地学习到复杂操作策略，并获得更好的策略收敛结果。

Nov, 2018

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

在线动态适应和神经网络先验的一次性操作技能学习

本研究提出了一种基于模型的强化学习算法，将以前任务的先验知识与在线动态模型适应相结合，实现了高效学习，并且成功地应用于各种复杂机器人操纵任务。

Sep, 2015

元学习共享层级

本文提出了一种元学习方法，通过使用共享的基元，改进对未见过任务样本的样本效率，并提供了衡量其效果的具体指标；同时，通过重置任务特定策略并使用任何现成的强化学习方法，我们实现了这一方法的端到端解决方案，成功地在用四条腿的机器人互动的迷宫分布中发现了有意义的运动原语，并且将原语应用于解决长时间尺度的稀疏奖励障碍航线问题，从而使三维人形机器人能够稳健地行走和爬行。

Oct, 2017

连续灵巧性：将灵巧策略链接起来实现长程操纵

基于强化学习的连续灵巧系统，通过链式连接多个灵巧策略来实现长期目标，克服了任务空间维度高和复杂的动力学组合的挑战，并且能够在现实世界中应用于装备有灵巧手的机器人。

Sep, 2023

使用深层分层网络生成长期轨迹

本文利用专家示范解决关于建模长时间轨迹的问题，通过提出一种层次化神经网络结构，能够在高维状态空间中，自动识别长短期目标，进而实现不同于传统方法由单一策略为核心，解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例，通过专业体育分析师的判断得出，相较传统基准方法，作者提出的层次化策略能够生成更为真实的轨迹。

Jun, 2017

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022