量化先于选择：活跃动态偏好在强化学习中的鲁棒性

MMSep, 2022

量化先于选择：活跃动态偏好在强化学习中的鲁棒性

Quantification before Selection: Active Dynamics Preference for Robust Reinforcement Learning

Kang Xu, Yan Ma, Wei Li

TL;DR通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。

Abstract

Training a robust policy is critical for policy deployment in real-world systems or dealing with unknown dynamics mismatch in different dynamic systems. domain randomization~(DR) is a simple and elegant approach

domain randomization policy training dynamic systems robustness active dynamics preference

发现论文，激发创造

主动域随机化

本文就域随机化技术在代理泛化方面的影响进行了实证研究，提出了一种新颖的算法 Active Domain Randomization，该算法学习参数采样策略，通过利用随机化和参考环境实例之间的策略汇聚差异来查找给定随机化范围内最具有信息量的环境变化，通过在这些实例上更频繁地训练，提高代理泛化的整体性能，实验结果表明在各种基于物理模拟和真实机器人任务中，该增强技术能够导致更强健、一致的策略。

Apr, 2019

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023

领域随机化通过最大化熵

通过在模拟中自动调节动力学分布而无需真实世界数据，我们提出了 DOmain RAndomization via Entropy MaximizatiON (DORAEMON) 方法，该方法通过增加采样动力学参数的多样性来提高自适应性和泛化能力，并在未知真实参数下成功进行零 - shot 迁移最大化目标任务的解决。

Nov, 2023

BayRnTune: 自适应贝叶斯领域随机化策略微调

通过对先前学习的策略进行微调，我们提出了一种自适应贝叶斯域随机化策略，以显著加速学习过程，并在多个仿真环境中表现出与基准算法相比更好的奖励效果。

Oct, 2023

动态随机化的机器人控制的仿真到实际转移

本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学，我们能够开发出适应非常不同的动力学的策略，并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面，我们的方法在物体推动任务上表现出了很好的性能。

Oct, 2017

学习和部署具有最小动力学随机化的健壮运动策略

通过引入随机力注入的策略，该研究为解决深度增强学习中数据收敛需求高问题提供了简单有效的方案，并成功将该方法用于四足机器人模拟模型到真实模型的转移。

Sep, 2022

学习主动任务导向的探索策略，弥合模拟与现实之间的差距

本文提出并分析了一种基于任务导向探索的框架，该框架通过在模拟环境中学习任务导向的探索策略来标识任务相关的系统参数，并将这些参数用于在现实世界中进行基于模型的轨迹优化。实验表明，任务导向的探索有助于在系统参数未知时，使基于模型的策略适应更好，从而实现更好的任务表现。

Jun, 2020

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

应用动作空间中自适应对抗扰动的鲁棒深度强化学习

深度强化学习算法中的模拟和真实世界之间的建模错误问题，通过使用对抗学习生成扰动以建模差异并提高深度强化学习的鲁棒性，在控制对抗性扰动的参数上存在平均性能和鲁棒性之间的权衡。为了保持训练的稳定性并提高鲁棒性，我们提出了一种简单而有效的方法，即自适应对抗性扰动 (A2P)，可以动态选择适当的对抗性扰动来处理每个样本。我们的方法具有将其部署在实际应用中且无需事先访问模拟器的优点。在 MuJoCo 上的实验表明，我们的方法可以提高训练的稳定性，并在不同的测试环境中学习到一种鲁棒的策略。

May, 2024

基于贝叶斯优化的高效领域随机化

本文提出了一种 Bayesian Domain Randomization（BayRn）算法，通过采样真实世界目标域中的稀疏数据来适应性地调整源域分布参数，解决在机器人控制中遇到的模拟培训与真实世界之间存在的不匹配问题，实现了在模拟和真实环境下的任务优化。

Mar, 2020