COIN: 机遇约束的模仿学习用于基于不确定性感知的自适应资源超额订阅策略

Jan, 2024

COIN: 机遇约束的模仿学习用于基于不确定性感知的自适应资源超额订阅策略

COIN: Chance-Constrained Imitation Learning for Uncertainty-aware Adaptive Resource Oversubscription Policy

Lu Wang, Mayukh Das, Fangkai Yang, Chao Duo, Bo Qiao...

TL;DR我们通过提出的新颖的机会约束模仿学习框架解决了在存在不确定性的情况下学习安全和稳健的决策策略的挑战，以提高资源效率并确保安全性。

Abstract

We address the challenge of learning safe and robust decision policies in presence of uncertainty in context of the real scientific problem of adaptive resource oversubscription to enhance →

learning decision policies adaptive resource oversubscription safety resource efficiency

发现论文，激发创造

机会约束多智能体强化学习中的云计算合作超额订阅学习

本文针对云服务商超额订阅资源的使用问题，提出了一种基于概率约束优化和多智能体强化学习的超额订阅策略，实验表明该方法可以在不同安全约束条件下提高资源利用率 (20%~86%)。

Nov, 2022

面向运行时不确定性的鲁棒离线学习

论文提出了一种针对运行时不确定性的离线评估方法，该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性，还对观察到的和意外的运行时不确定性具有鲁棒性，并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。

Feb, 2022

基于收敛上级的同策略机器人仿真学习

本文讨论了在学习策略时，监督者可能会变化的问题，并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外，作者将此框架与一类强化学习算法（DPI）相连，并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果，并提供了多达 80 倍的策略评估加速。

Jul, 2019

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

在预训练语言条件下的不确定性感知部署

大规模机器人策略、通用机器人、不确定性感知的部署、模仿学习代理、任务完成率。

Mar, 2024

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

关于稳定约束模仿学习的样本复杂度

在模仿学习中，专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响，本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法，通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。

Feb, 2021

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023