评估对于需要空间几何推理的物体组装任务的视觉表示的稳健性

Oct, 2023

评估对于需要空间几何推理的物体组装任务的视觉表示的稳健性

Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning

Chahyon Ku, Carl Winge, Ryan Diaz, Wentao Yuan, Karthik Desingh

TL;DR本研究主要评估和基准测定在物体装配任务中视觉表示的鲁棒性。研究采用了一个视觉运动策略学习的通用框架，将预训练模型用作视觉编码器，并发现从头开始训练的视觉编码器在双臂操纵设置中表现出更好的性能，而现有的预训练模型则不足以满足此任务所需的重要视觉特征。此外，研究还讨论了旋转表示和相关损失函数，这些能够大幅提高策略学习的效果，提出了一种用于评估视觉运动策略学习进展的新型任务场景，特别关注提高复杂装配任务的鲁棒性，需要同时进行几何和空间推理。

Abstract

This paper primarily focuses on evaluating and benchmarking the robustness of visual representations in the context of object assembly tasks

visual representations object assembly tasks visual encoders policy learning robustness

发现论文，激发创造

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP 和 EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

可变条件下稳健的插销孔任务的视觉空间注意力与本体感驱动强化学习

建筑中用于混凝土孔的铆钉插入是一个钉孔任务，为了减轻自动化这一任务所面临的挑战，我们引入了一个针对光照和孔面条件具有鲁棒性的视觉和感知数据驱动的机器人控制模型。该模型通过空间注意点网络和深度增强学习策略的联合训练，以端到端的方式来控制机器人。该模型通过离线训练，在减少训练时间和最小化将模型转移到实际世界时的现实差距方面具有高效率。通过在 12 个未知孔上进行工业机器人的评估实验，从 16 个不同的初始位置开始，并在三种不同的照明条件下（其中两种有误导性阴影），我们证明了空间注意点网络即使在具有挑战性的光照条件下也能够生成相关的图像关注点。我们还展示了所提出的模型使任务执行的成功率更高，并且任务完成时间更短，高于各种基准。由于所提出的模型在严峻的光照、初始位置和孔条件下的高效性，以及离线训练框架的高样本效率和短训练时间，这种方法可以很容易地应用于建筑领域。

Dec, 2023

预训练视觉表示对稳健操控的成功因素

通过对 15 个预训练视觉模型的性能比较，发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后，分割分数在离线训练和 50 次演示后预测了真实世界的性能。

Nov, 2023

对称感知强化学习在部分可观测条件下软手腕机器人装配中的应用

这项研究使用软手腕来解决机器人装配中具有代表性且具有挑战性的插入孔位任务，其可以比刚性手腕更安全操作且容忍较低频率的控制信号。我们使用部分可观察的形式并通过展示学习和基于记忆的深度强化学习来训练一个完全基于触觉和本体感知信号行动的智能体。此外，我们利用潜在的领域对称性以提高样本效率，并通过构建辅助损失推动智能体遵守对称性。在模拟环境中，我们的智能体在五个不同的对称插头形状上显示出与基于状态的智能体相当甚至更好的性能。特别是，样本效率还使我们能够在 3 小时内直接在真实机器人上学习。

Feb, 2024

深度 SE (3) 等变几何推理用于精确布局任务

在本文中，我们提出了一种方法，用于准确的相对位置预测，该方法在少量演示数据上可学习，可以跨对象类别变化进行泛化，并通过证明具有 SE (3) 等变性来解决此问题。

Apr, 2024

从人类演示视频中学习可推广的任务表征：一种几何方法

本文提出了一种利用几何任务结构进行表示学习的方法，通过人类演示视频学习视觉观察的表征，并通过建立不同类别物体之间的任务说明对应来实现任务的泛化，从而不需要额外的机器人训练或预先录制的机器人运动来实现在机器人上的任务学习。

Feb, 2022

基于强化学习的物体几何形态高效表征与互动抓取策略学习

本文提出一种基于强化学习的框架，通过连续地控制一个类人机械手，学习各种几何不同的实际物体的交互抓取。该框架在物体几何的显式表示方面进行了探索，并且通过符号距离隐式地指导搜索，最终表现出在更具挑战性的条件下学习的能力。

Nov, 2022

利用 SE（3）等变性学习 3D 几何形状装配

我们提出利用 SE (3) 等变性对形状姿态进行解耦，并在多部分协作方面提供了改进，这大大提高了几何形状装配的性能。

Sep, 2023

面向通用机器人学习的深度目标中心表示

本文提出了一种方法来解决复杂开放环境下机器人操作的问题，该方法基于先前训练的通用视觉模型作为感知系统的对象先验，并引入了一个基于对象的注意机制来确定相关对象，通过少数轨迹或演示将这些对象纳入学习策略，使用强化学习可以学习多种操作任务。

Aug, 2017

迈向无监督视觉推理：现成特征是否具备推理能力？

本研究探索了通过视觉表征学习来评估对象信息如何被保留，例如它们的空间位置、视觉属性和相对关系，并介绍了一种用于评估视觉表征的协议，重点关注视觉推理的任务，比较了局部特征和面向对象的特征对于视觉推理的影响。

Dec, 2022