学习生成增强图像用于模拟到真实场景的策略迁移

Mar, 2019

学习生成增强图像用于模拟到真实场景的策略迁移

Learning to Augment Synthetic Images for Sim2Real Policy Transfer

Alexander Pashevich, Robin Strudel, Igor Kalevatykh, Ivan Laptev, Cordelia Schmid

TL;DR本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Abstract

vision and learning have made significant progress that could improve robotics policies for complex tasks and environments. →

vision learning robotics policies simulated environments policy learning

发现论文，激发创造

自然语言有助于缩小 Sim2Real 鸿沟

通过使用自然语言描述图像作为统一的信号来捕捉底层的任务相关语义，我们提出了一种方法来解决在学习图像条件机器人策略时所面临的模拟与真实世界之间的视觉差距问题，该方法通过对大量模拟数据和少量真实演示进行同时训练，将图像编码器作为无域变迁的图像表示的基础，并取得了较之前的 Sim2Real 方法和 CLIP、R3M 等强大的视觉 - 语言预训练方法 25 至 40% 的性能提升。

May, 2024

强化学习中的策略转移的小样本图像到语义翻译

本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Jan, 2023

域随机化：从仿真到真实世界的深度神经网络转移

探究了一种称为 “Domain Randomization” 的技术，该技术使用非真实随机纹理来训练深度神经网络对象定位器，使得该定位器在真实环境中表现出色，并且可以应用于机器人控制中。

Mar, 2017

基因学习用于设计模拟到真实数据增强

使用可解释的度量方法，结合遗传编程技术，预测适用于特定 sim-to-real 场景的数据增强策略，并在无需训练模型的情况下为特定数据集设计数据增强策略。

Mar, 2024

鲁棒的视觉从模拟到实际的机器人操作转移

通过在模拟环境中学习视觉运动策略，我们提出了一种通过视觉域随机化方法来解决模拟与真实世界之间差异的问题，并在丰富的机器人操作任务中进行了基准测试。我们的方法在各种挑战性的操纵任务中取得了 93% 的成功率，并证明了模拟器训练的策略在真实场景中的视觉变化下具有更好的鲁棒性。

Jul, 2023

Sim-Real 联合强化迁移学习在 3D 室内导航中的应用

本文介绍了一种基于对抗特征调整模型的 3D 室内导航机器人训练方法，通过视觉特征的转换与行为策略的模仿来提高机器人在真实环境中的表现。实验证明该方法能够在不需要额外人工注释的情况下，比基线方法表现提高 19.47%。

Apr, 2019

机器人 VR 眼镜：基于实际到虚拟域适应的视觉控制

本文提出了一种新颖的方法来解决从模拟环境到真实世界的深度强化学习策略传输问题，通过在部署阶段将真实世界的图像流翻译回合成域来解决这个问题，同时提出了一种不受下游任务影响的简单而有效的位移损失以及在室内和室外机器人实验中验证了我们的视觉控制方法。

Feb, 2018

机器人深度强化学习中的模拟到真实转移：一项调查

本篇综述涵盖了深度强化学习中模拟转真实环境的基本背景，包括不同方向的方法和应用场景，重点讨论了域随机化、域自适应、模仿学习、元学习和知识蒸馏等方法及其存在的机遇和挑战。

Sep, 2020

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

有效的 Sim2Real 迁移干预设计

本文旨在通过因果推断的角度解释环境干预在域随机化和数据增强中的优越性，并将其作为培养对不相关特征不变性的手段。研究发现，通过在真实世界存在变化的维度中展示具有相似变化的干扰，可以提高学习算法对其它干扰的鲁棒性并提高模拟环境转移的泛化能力。

Dec, 2020