UDUC: 基于不确定性驱动的学习鲁棒控制方法

May, 2024

UDUC: 基于不确定性驱动的学习鲁棒控制方法

UDUC: An Uncertainty-driven Approach for Learning-based Robust Control

Yuan Zhang, Jasper Hoffmann, Joschka Boedecker

TL;DR通过引入基于不确定性驱动的鲁棒控制损失 (UDUC) 作为概率集合模型的替代目标，并受对比学习的启发，我们分析了 UDUC 损失的鲁棒性，并评估其在具有显著环境不匹配的挑战性实际强化学习基准 (RWRL) 上的性能。

Abstract

learning-based techniques have become popular in both model predictive control (MPC) and reinforcement learning (RL). Probabilistic ensemble (PE) models offer a promising approach for modelling system dynamics, showcasing the ability to capture uncertainty and scalability in high-dimen

learning-based techniques probabilistic ensemble models mode collapse uncertainty-driven robust control (uduc) loss real-world reinforcement learning (rwrl) benchmark

发现论文，激发创造

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

稳健强化学习的贝叶斯方法

本文提出了基于不确定性鲁棒贝尔曼方程（URBE）的 DQN-URBE 算法，通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数，并能够快速调整参数以适应系统行为的变化，在保持鲁棒性的同时获得更少保守的解。

May, 2019

稳健建筑控制的主动强化学习

在建筑控制领域，本研究提出了一种新颖的 UED 算法 ActivePLR，通过使用具有不确定性感知的神经网络结构，在 RL 代理的能力极限处生成新的训练环境，并能够优先考虑在基准环境中的性能，表明 ActivePLR 能够在最小化能源消耗的同时最大化居住者舒适度方面优于最先进的 UED 算法。

Dec, 2023

自主驾驶强化学习的不确定性识别、估计和界限化

该研究提出了一种基于不确定性边界的深度强化学习方法，用于保护无人驾驶决策的可靠性。该方法通过限制无人车神经网络决策策略的性能不确定性，从而提高了性能表现，并能够在不同程度的训练数据下有效地保护可靠性，并提高性能。

May, 2023

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

利用强健学习改进无监督图像聚类

本文提出了一种创新的 RUC 模型，利用已有的无监督图像聚类模型的伪标签作为噪声数据集，重新训练过程可以修正错误的知识并缓解预测中的过度自信问题。该模型具有良好的灵活性，可以用作其他聚类方法的附加模块，并帮助其在多个数据集上取得更好的性能。实验表明，该模型对于对手攻击的噪声具有额外的鲁棒性和更好的模型置信度校准。

Dec, 2020

利用概率集成神经网络动力学来桥接主动探索和不确定性感知部署

该研究提出了一个基于模型的强化学习框架，将主动探索和不确定性感知部署这两个任务结合了起来，通过 Jensen-Renyi 分歧量化确定性，最终在自主驾驶车辆和轮式机器人上进行了成功的实验。

May, 2023

基于不确定性的深度增强学习外分布分类

提出基于不确定性的 Out-of-Distribution 分类框架（UBOOD），通过利用智能体价值函数的认知不确定性，结合不同的不确定性估计方法进行分类，包括具体的负值 dropout 方法或集成方法，并采用训练数据的不确定性分布计算动态分类阈值，实现对深度 RL 中的 Out-of-Distribution 数据的可靠检测。

Dec, 2019

无监督环境设计中的随机不确定性建模

SAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Jul, 2022

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018