策略学习在缺乏支持下的离散的 RL 中的应用

Feb, 2024

策略学习在缺乏支持下的离散的 RL 中的应用

Policy Learning for Off-Dynamics RL with Deficient Support

Linh Le Pham Van, Hung The Tran, Sunil Gupta

TL;DR通过解决源模拟和目标环境之间的动力学差异问题，提出一种简单但有效的方法，通过偏向和扩展源支持以减轻支持缺陷，以适应大的动力学差异，从而在目标领域中制定出有效的策略。

Abstract

reinforcement learning (RL) can effectively learn complex policies. However, learning these policies often demands extensive trial-and-error interactions with the environment. In many real-world scenarios, this approach is not practical due to the high costs of data collection and safe

reinforcement learning policy transfer dynamics discrepancies adaptation support deficiencies

发现论文，激发创造

离线动态强化学习：通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

捕获表征不匹配的方式进行跨领域策略自适应

本研究主要关注在强化学习中存在动力学不匹配的问题，提出了一种基于解耦表示学习的方法，通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异，将表示差异作为奖励惩罚项，该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。

May, 2024

动态随机化的机器人控制的仿真到实际转移

本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学，我们能够开发出适应非常不同的动力学的策略，并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面，我们的方法在物体推动任务上表现出了很好的性能。

Oct, 2017

学习主动任务导向的探索策略，弥合模拟与现实之间的差距

本文提出并分析了一种基于任务导向探索的框架，该框架通过在模拟环境中学习任务导向的探索策略来标识任务相关的系统参数，并将这些参数用于在现实世界中进行基于模型的轨迹优化。实验表明，任务导向的探索有助于在系统参数未知时，使基于模型的策略适应更好，从而实现更好的任务表现。

Jun, 2020

通过学习深度反向动力学模型，从模拟环境实现向真实世界的迁移

本文研究了如何将在模拟中成功的控制策略推广到实际机器人上，通过计算模拟根据该策略期望的状态并利用深度逆动力学模型决定哪种真实世界的控制动作最适合实现这些状态，同时提出了一种数据收集方法（逐步）学习深度逆动力学模型。

Oct, 2016

学习和部署具有最小动力学随机化的健壮运动策略

通过引入随机力注入的策略，该研究为解决深度增强学习中数据收敛需求高问题提供了简单有效的方案，并成功将该方法用于四足机器人模拟模型到真实模型的转移。

Sep, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

解耦动态与奖励的迁移学习

本文提出了一种分离式学习策略，通过创造共享的表示空间来保证知识可以稳健地转移，分离学习任务表示，前向动力学，反向动力学和领域奖励函数，并表明这种分离可以提高任务内的性能并有效用于在线计划，在连续和离散 RL 领域中表现良好。

Apr, 2018

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在 KUKA LBR 4 + 机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019