Q-attention: 为基于视觉的机器人操作实现有效学习

May, 2021

Q-attention: 为基于视觉的机器人操作实现有效学习

Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

Stephen James, Andrew J. Davison

TL;DR利用注意力驱动的机器人操作算法（ARM），结合 Q-attention 代理、姿态代理和控制代理构成的三阶段流水线，能够成功解决目前强化学习在处理机器人操作任务时存在的困难，特别是针对图像输入的情况，对 RLBench 标准任务有显著的提高。

Abstract

Despite the success of reinforcement learning methods, they have yet to have their breakthrough moment when applied to a broad range of robotic manipulation tasks. This is partly due to the fact that

reinforcement learning robotic manipulation attention-driven robotic manipulation q-attention agent rlbench tasks

发现论文，激发创造

粗到细的 Q-attention：通过离散化实现视觉机器人操作的高效学习

使用粗到细的离散化方法，取代不稳定，并且数据效率低的连续机器人学中的角色扮演者 - 评论者方法，实现离散增强学习应用。该方法利用最近推出的 ARM 算法，将连续的下一个最佳姿态代理替换为离散的，采用粗到细的 Q-attention 方法，学习何时对场景的哪一部分进行缩放，实现对平移空间的近乎无损区分，并允许使用离散行动及深度 Q - 学习方法。实验表明，这种新的粗到细算法在几个困难的基于视觉的机器人任务上实现了最先进的性能，并且可以在几分钟内训练出现实世界的政策。

Jun, 2021

面向基于视觉的深度强化学习的机器人运动控制

本文介绍了一种基于机器学习的系统，用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力，而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上，并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后，Deep Q 网络（DQN）被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了，但实验证明在用合成图像代替相机图像时，网络可以正常工作。

Nov, 2015

QT-Opt：基于视觉的机器人操作的可伸缩深度强化学习

本文提出了一种基于 QT-Opt 的可扩展自监督视觉强化学习框架，该框架能够利用超过 580k 的真实抓取尝试来训练一个具有超过 1.2M 个参数的深度神经网络 Q 函数，实现闭环实际抓取并能够推广到 96% 的机器人抓取任务中，而且不仅实现了极高的成功率，而且通过 RGB 视觉感知和操纵，自动学习了重抓策略，动态响应干扰与扰动，并能够重新定位物品和执行其他非抓取前的操作。

Jun, 2018

基于端到端演示学习的基于视觉的廉价机器人多任务操作

以多任务学习为基础，提出一种通过演示学习从而训练低成本机械臂控制器，以便完成数个拾取放置任务及非预抓取式操控操作的技术，使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器，参数在任务之间共享；同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明，可以通过行为克隆直接从原始图像中学习复杂的操纵任务，例如拾起毛巾、擦拭物体并将毛巾放回原位等，权重共享和基于重构的正则化大大提高了泛化性和鲁棒性，同时同时训练多个任务能够增加所有任务的成功率。

Jul, 2017

基于 GPU 仿真和高质量演示的交互式人类样学习加速

利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能，最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。

Dec, 2022

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

RMBench：机器人操作器控制深度强化学习基准测试

本文介绍了 RMBench，这是一个用于机器人操作的基准测试，使用深度学习和强化学习算法，通过使用目标性能指标来比较算法的性能表现，研究发现，软 Actor-Critic 的表现最好，且数据增强技术有助于学习策略。

Oct, 2022

利用增强学习实现遮挡情况下操纵物体的主动视觉学习

该研究探讨了人工智能代理在存在物体干扰的情况下，学习协同控制夹持器和相机，以强化学习策略来完成目标。其中，手 / 眼控制器通过物体中心化注意力结构进行处理，学习如何移动相机来保证物体始终在视野内，并与夹持器协同完成任务。此外，环境难度的课程设计，对最终的动态视野 / 夹持策略影响显著。实验结果表明，该方法在多样化的杂乱环境中胜过静态相机设置。

Nov, 2018

机器人操作中基于深度模仿学习的记忆驱动注视预测

本文提出了一种使用基于 Transformer 的自注意力结构实现眼神预测，以实现具有记忆的机器人操作任务的算法。通过将机器人视觉输入的连续序列作为输入，该算法能够通过使用传统的深度模仿学习方法并结合眼动预测来实现多物体操作任务。实验结果表明，该方法成功地改善了机器人在具有记忆要求的复杂环境中的操作表现。

Feb, 2022

机器人操作学习综述：挑战、表示和算法

自主系统中智能机器人学习如何操作环境的一篇综述性研究，该研究着重于利用机器学习解决机器人操作的问题，并阐述了该领域的众多研究机遇和挑战。

Jul, 2019