深度视觉动作策略的端到端训练
采用模块化神经网络体系结构,利用合成数据和模拟技术,通过低维潜在表示生成场景可用性,成功训练机械臂政策。同时,提出了一种数据集生成方法,可轻松推广到新任务、对象和环境,无需手动像素标记。
Mar, 2019
通过使用深度预测策略训练框架,该研究提出了一种有效的方法来训练预测动作策略,使用合成和模拟训练样本来强制进行视觉和运动数据的抽象,以及使用策略搜索强化学习方法来训练每个任务的策略超层,该框架在 PR2 机器人上训练物体抓取和投球等技能任务,并且训练样本只使用了约 180 次实际机器人尝试,达到了很好的效果。
Mar, 2017
本文提出了使用端到端的控制方法和领域随机化训练卷积神经网络,实现机器人对多阶段任务的执行。结果表明,此方法在真实环境中能够成功执行任务并推广到新环境。
Jul, 2017
通过学习深度的感知动作策略,使用对比学习从输入图像中提取固定特征表示,通过两阶段的作弊式学习框架训练神经网络策略,将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断,无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性,而且可以实现与状态法相同的赛车性能,为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。
Oct, 2022
本文研究了多层神经网络在控制方面的应用,特别是在连续高维动作任务中,通过强化学习训练后实现了控制策略,结果表明可以成功训练具有成千上万个参数的神经网络控制器,并比较了各种不同结构。文章讨论了这一问题与以往有监督知觉任务的区别,呈现了实验结果,并讨论了将深度学习技术应用于控制问题优化的未来方向。
Nov, 2013
该论文提出了一种新的策略表示 —— 神经动力学策略,通过将动力学系统嵌入到神经网络策略中,通过二阶微分方程来重新参数化动作空间以实现端到端的政策学习,并在几个机器人控制任务中展示了神经动态策略比传统的基于先验的策略学习方法更高的效率和性能表现。
Dec, 2020
将从追逐 - 逃避互动中学习战略性机器人行为这一实际约束下的问题转化为一个监督学习问题,其中完全可观测的机器人策略为部分可观测的机器人策略生成监督信号,并发现这个监督信号的质量依赖于两个关键因素:逃避者行为的多样性与最优性的平衡以及完全可观测策略中的建模假设的强度。在野外的追逐 - 逃避互动中,我们部署了这个策略在一台带有 RGB-D 相机的四足机器人上,尽管面临各种挑战,感知限制激发了创造力:机器人在不确定时努力收集信息,从嘈杂的测量中预测意图,并为了拦截而提前预判。
Aug, 2023
本文介绍了一种基于机器学习的系统,用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力,而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上,并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后,Deep Q 网络(DQN)被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了,但实验证明在用合成图像代替相机图像时,网络可以正常工作。
Nov, 2015
以多任务学习为基础,提出一种通过演示学习从而训练低成本机械臂控制器,以便完成数个拾取放置任务及非预抓取式操控操作的技术,使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器,参数在任务之间共享;同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明,可以通过行为克隆直接从原始图像中学习复杂的操纵任务,例如拾起毛巾、擦拭物体并将毛巾放回原位等,权重共享和基于重构的正则化大大提高了泛化性和鲁棒性,同时同时训练多个任务能够增加所有任务的成功率。
Jul, 2017
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019