相互对齐迁移学习

Jul, 2017

Mutual Alignment Transfer Learning

Markus Wulfmeier, Ingmar Posner, Pieter Abbeel

TL;DR通过强化学习在模拟环境中训练机器人并结合补充奖励策略，与真实机器人进行进一步的微调来优化探索策略，实验结果表明，这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。

Abstract

Training robots for operation in the real world is a complex, time consuming and potentially expensive task. Despite significant success of reinforcement learning in games and simulations, research in real robot applications has not been able to match similar progress. While sample com

reinforcement learning real robot applications simulator parallel access auxiliary rewards

发现论文，激发创造

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

机器人深度强化学习中的模拟到真实转移：一项调查

本篇综述涵盖了深度强化学习中模拟转真实环境的基本背景，包括不同方向的方法和应用场景，重点讨论了域随机化、域自适应、模仿学习、元学习和知识蒸馏等方法及其存在的机遇和挑战。

Sep, 2020

基于模拟与实际强化学习的机器人操作：一种基于一致性的方法

本文提出了一个基于深度强化学习的机器人 pick-and-place 任务的共识型模拟现实联合训练算法（CSAR），目的是在模拟和实际环境中都实现高效和有效的策略优化。实验表明，模拟中的最佳策略并不一定适用于模拟和实际环境的学习。同时，越多的模拟代理越有利于模拟现实的训练。

Feb, 2023

动态随机化的机器人控制的仿真到实际转移

本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学，我们能够开发出适应非常不同的动力学的策略，并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面，我们的方法在物体推动任务上表现出了很好的性能。

Oct, 2017

通过模拟对实际现实进行调和：一种用于强大操纵的实际到模拟到实际的方法

通过模拟环境构建数字双子，提出了一种通过强化学习来增强真实世界模仿学习策略的系统 RialTo，实现高性能、鲁棒性的策略的学习，同时避免大量不安全的真实数据收集和大量人工监督。

Mar, 2024

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在 KUKA LBR 4 + 机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019

泛化自驾车策略的模仿学习及模拟转现实

本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题，并通过 sim-to-real 方法进行实际环境迁移，最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。

Jun, 2022

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

基于图像的机器人学习的非对称演员 - 评论家算法

本研究使用深度强化学习的 actor-critic 算法，利用物理模拟器的完全状态可观测性，针对机器人操作中的部分观测（RGBD 图像）的问题进行训练，通过使用不对称输入来显著提高性能，并使用领域随机化的方法，实现了在没有真实世界数据的情况下，在真实机器人上进行的模拟到真实世界的转移。

Oct, 2017