探索了模型强化学习需要哪些不确定性,论证了好的不确定性必须具有校准性,并描述了一种简单的方法来增强任何模型强化学习代理程序,并表明通过校准模型,可以一致地提高规划、样本复杂度和探索能力,该方法在 HalfCheetah MuJoCo 任务中实现了最先进的性能,使用 50%少的样本比当前领先的方法,并且研究表明,这种校准可以在计算和实施开销最小的情况下提高模型强化学习的性能。
Jun, 2019
探索一种中间立场,通过对其考虑的计划进行一种正则化来避免过度拟合,该论文提出了三种不同的方法,可在强化学习环境下明显缓解计划器过度拟合。
Dec, 2018
本研究主要关注序列决策算法中的不确定性和风险问题,通过探索规划和强化学习两种方法,尤其是面向基于模型算法的研究,旨在缓解 epistemic 和 aleatoric 不确定性问题。
Apr, 2023
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
基于模型的强化学习中,模拟经验往往被视为与真实环境的经验等价。然而,当模型不准确时,它可能对策略学习造成灾难性干扰。相反,智能体可以学习模型的准确性,并仅在可以提供可靠预测时有选择地使用它。我们通过实证研究探讨了模型不确定性测量与选择性规划,并展示了最佳结果需要分布不敏感推理来估计基于模型的更新的不确定性。为此,我们提出并评估了一种基于边界框的推理方法,它在可能状态和其他量的边界框上进行操作。我们发现,基于边界框的推理能够可靠地支持有效的选择性规划。
Jun, 2024
本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用,实验结果表明,该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。
Dec, 2019
使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性,实现在未知数据情况下的碰撞回避。
Oct, 2018
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022