BayRnTune: 自适应贝叶斯领域随机化策略微调

Oct, 2023

BayRnTune: 自适应贝叶斯领域随机化策略微调

BayRnTune: Adaptive Bayesian Domain Randomization via Strategic Fine-tuning

Tianle Huang, Nitish Sontakke, K. Niranjan Kumar, Irfan Essa, Stefanos Nikolaidis...

TL;DR通过对先前学习的策略进行微调，我们提出了一种自适应贝叶斯域随机化策略，以显著加速学习过程，并在多个仿真环境中表现出与基准算法相比更好的奖励效果。

Abstract

domain randomization (DR), which entails training a policy with randomized dynamics, has proven to be a simple yet effective algorithm for reducing the gap between simulation and the real world. However, DR often requires careful tuning of randomization parameters. Methods like Bayesia

domain randomization bayesian domain randomization active domain randomization adaptive bayesian domain randomization fine-tuning

发现论文，激发创造

基于贝叶斯优化的高效领域随机化

本文提出了一种 Bayesian Domain Randomization（BayRn）算法，通过采样真实世界目标域中的稀疏数据来适应性地调整源域分布参数，解决在机器人控制中遇到的模拟培训与真实世界之间存在的不匹配问题，实现了在模拟和真实环境下的任务优化。

Mar, 2020

主动域随机化

本文就域随机化技术在代理泛化方面的影响进行了实证研究，提出了一种新颖的算法 Active Domain Randomization，该算法学习参数采样策略，通过利用随机化和参考环境实例之间的策略汇聚差异来查找给定随机化范围内最具有信息量的环境变化，通过在这些实例上更频繁地训练，提高代理泛化的整体性能，实验结果表明在各种基于物理模拟和真实机器人任务中，该增强技术能够导致更强健、一致的策略。

Apr, 2019

量化先于选择：活跃动态偏好在强化学习中的鲁棒性

通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。

Sep, 2022

领域随机化通过最大化熵

通过在模拟中自动调节动力学分布而无需真实世界数据，我们提出了 DOmain RAndomization via Entropy MaximizatiON (DORAEMON) 方法，该方法通过增加采样动力学参数的多样性来提高自适应性和泛化能力，并在未知真实参数下成功进行零 - shot 迁移最大化目标任务的解决。

Nov, 2023

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

BayesSim：机器人模拟器的自适应领域随机化及概率推断

BayesSim 是一个机器人模拟框架，采用贝叶斯处理参数不确定性，可以用于解决动作规划和感知问题。通过在未知参数的基础上对黑匣子模拟器进行无似然推断，可以获得后验分布，并用于模拟现实情况。实验表明，BayesSim 的效果比基于均匀先验随机的方法更加优秀。

Jun, 2019

面向具象导航智能体的双向领域自适应 Sim2Real 转移

本文提出了双向域适应（BDA）的方法，以弥合模拟与现实真实数据之间的差距，实现智能机器人领域中的 PointGoal 导航任务，结果显示只需 5k 样本即可取得 600k 样本的效果，实现了约 120 倍的加速。

Nov, 2020

朝向领域自适应的神经上下文赌博

通过从源域收集反馈，我们介绍了第一个用于情境强盗的通用领域适应方法。我们的方法在跨领域适应时维持亚线性遗憾界限，并在真实世界数据集上表现优于现有的情境强盗算法。

Jun, 2024

针对领域特定风险的最小化以实现超出分布的泛化

本文提出了基于领域特定风险最小化（DRM）的方法，旨在通过利用源域信息和适应性差的估计和最小化来弥合领域间差异以实现领域通用性，并在不同分布漂移设置下显着优于竞争基准。

Aug, 2022

贝叶斯助力转向：扩散模型领域自适应的有效方法

我们提出了一种贝叶斯框架，用于通过一种名为贝叶斯动力转向（BPS）的新型网络结构对大规模扩散模型进行微调。BPS 从预训练模型的学习先验分布中提取任务特定的知识，通过头重脚轻的配置差异地介入不同的隐藏特征。实验证明，即使在有限的数据量下，BPS 在各种任务上均优于现有方法，特别是在 COCO17 数据集的素描条件下，BPS 达到了 10.49 的 FID 得分。

Jun, 2024