学习跨域控制与动力学循环一致性对应

Dec, 2020

学习跨域控制与动力学循环一致性对应

Learning Cross-Domain Correspondence for Control with Dynamics Cycle-Consistency

Qiang Zhang, Tete Xiao, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang

TL;DR本文提出了利用动态循环 (Dynamics Cycles) 的方法，通过在两个不同的领域中学习关联来解决机器人学习中的问题，包括模仿学习、模拟到真实世界的迁移学习和不同机器人环境之间的转移学习。该方法可以通过使用来自两个不同领域的非配对和随机收集的数据，对代表 (视觉 / 内部状态)、物理参数 (质量 / 摩擦力) 和形态 (肢体数量) 不同的两个领域进行对齐，最终在不需要任何额外的微调的情况下将一个领域的策略直接转移至另一个领域。

Abstract

At the heart of many robotics problems is the challenge of learning correspondences across domains. For instance, imitation learning requires obtaining correspondence between humans and robots; →

robotics correspondences dynamics cycles transfer learning sim-to-real

发现论文，激发创造

跨领域策略转移与效果循环一致性

我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法，通过对过渡效果进行对称优化结构的方案，将机器人策略从源领域无缝转移到目标领域，实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。

Mar, 2024

通过任务示范实现形态不同机器人之间的对应学习

我们提出了一种学习不同机器人之间的对应关系的方法，并通过一系列实验验证了该方法的有效性。

Oct, 2023

通过三维引导循环一致性学习密集对应关系

本文提出利用跨实例视觉一致性作为监督信息，通过建立一个包含 4 个环（4-cycle）的人工数据集提高深度学习在实现物体实例间的稠密视觉对应中的表现，并在测试阶段显示出优于先前相关任务的最新成果。

Apr, 2016

弱监督对应学习

本文提出了一种基于弱监督的通信学习方法，结合了严格匹配数据和非匹配数据学习，利用状态和动作的时间关系和配对抽象来降低成本和提高通信准确性。

Mar, 2022

利用弱配对约束调整深度视觉运动表示

提出了一种新颖的领域适应方法，将在大型易于获得的源数据集 (例如，合成图像) 上学习的视觉表示适应到目标实际世界领域，不需要昂贵的手工数据注释。作者使用弱对齐图像，结合分布对齐的方式来解决实际和模拟环境差异的问题，并在机器人操作任务上对其进行了评估。

Nov, 2015

跨域观测下的模仿学习

本篇研究针对专家行为与训练代理之间的差异，提出了一种基于无配对无对齐的轨迹，以及循环一致性限制的框架，来学习对应关系以解决领域差异的问题，并通过实验证明了该方法的有效性。

May, 2021

跨领域政策迁移的综合调查和实例研究

通过对现有跨域策略转移方法进行系统审查，我们对每个问题设置的总体见解和设计考虑进行了细致的分类，并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后，我们总结了当前范式能力之外的开放挑战，并讨论了该领域可能的未来发展方向。

Feb, 2024

捕获表征不匹配的方式进行跨领域策略自适应

本研究主要关注在强化学习中存在动力学不匹配的问题，提出了一种基于解耦表示学习的方法，通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异，将表示差异作为奖励惩罚项，该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。

May, 2024

RL-CycleGAN: 强化学习感知的模拟到真实领域的对抗生成网络

本论文提出了基于深度神经网络的强化学习在机器人抓取任务中的应用，以及利用生成模型进行图像仿真与真实环境之间的过渡。其中引入了 RL-scene 一致性损失用于图像翻译，可保证翻译操作是不变的，并在实现无监督领域转换的同时，训练出了 RL-CycleGAN 模型，该模型表现出了模拟到现实环境下最优的效果。

Jun, 2020

对称腿机器人的高效样本动力学学习：利用物理不变性和几何对称性

该论文提出了一种利用机器人系统对称性学习动态的新方法，通过设计基于神经网络的对称对象组来考虑机器人系统的几何先验知识，实现了对少样本数据实现系统动态的扩展和精准的控制，同时与现有模型相比，该方法使用更少的训练数据实现了更好的泛化。

Oct, 2022