有限模型容量下的选择性 Dyna-style 规划

ICMLJul, 2020

有限模型容量下的选择性 Dyna-style 规划

Selective Dyna-style Planning Under Limited Model Capacity

Zaheer Abbas, Samuel Sokota, Erin J. Talvitie, Martha White

TL;DR该研究探讨了在模型不完备的情况下，通过估计预测不确定性（如起源于先验模型不充分的模型不适配性等因素）的方法，选择性地使用模型，以此提高强化学习算法的学习效果。

Abstract

In model-based reinforcement learning, planning with an imperfect model of the environment has the potential to harm learning progress. But even when a model is imperfect, it may still contain information that is

model-based reinforcement learning planning predictive uncertainty parameter uncertainty model inadequacy

发现论文，激发创造

基于校准的模型驱动深度强化学习

探索了模型强化学习需要哪些不确定性，论证了好的不确定性必须具有校准性，并描述了一种简单的方法来增强任何模型强化学习代理程序，并表明通过校准模型，可以一致地提高规划、样本复杂度和探索能力，该方法在 HalfCheetah MuJoCo 任务中实现了最先进的性能，使用 50％少的样本比当前领先的方法，并且研究表明，这种校准可以在计算和实施开销最小的情况下提高模型强化学习的性能。

Jun, 2019

模型驱动的强化学习中规划器过拟合问题的缓解

探索一种中间立场，通过对其考虑的计划进行一种正则化来避免过度拟合，该论文提出了三种不同的方法，可在强化学习环境下明显缓解计划器过度拟合。

Dec, 2018

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

基于模型的强化学习的误差感知边界框推断

基于模型的强化学习中，模拟经验往往被视为与真实环境的经验等价。然而，当模型不准确时，它可能对策略学习造成灾难性干扰。相反，智能体可以学习模型的准确性，并仅在可以提供可靠预测时有选择地使用它。我们通过实证研究探讨了模型不确定性测量与选择性规划，并展示了最佳结果需要分布不敏感推理来估计基于模型的更新的不确定性。为此，我们提出并评估了一种基于边界框的推理方法，它在可能状态和其他量的边界框上进行操作。我们发现，基于边界框的推理能够可靠地支持有效的选择性规划。

Jun, 2024

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022