深度强化学习中的风险和不确定性估计
我们提出了一种新颖的统计方法,用于在无模型分布式强化学习中纳入不确定性感知,它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN(Calibrated Evidential Quantile Regression in Deep Q Networks),旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合,提供明确的、无需样本的全局不确定性计算,而不是基于简单差异的局部估计,从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏(即 MinAtar)的测试中,CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略,并可作为其他需要不确定性感知的算法的蓝图。
Feb, 2024
我们提出了一种基于分布式强化学习的算法,通过估计参数化回报分布来统一估计 aleatory 和 epistemic 不确定性,并量化两种不确定性的综合效应以实现风险敏感的勘探。实证结果表明,我们的方法在具有勘探和风险挑战的任务中优于替代方法。
Jan, 2024
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
本文介绍了一种基于偏爱函数的风险感知的增强学习框架,在不确定的环境下可以通过调节风险偏好参数实现风险规避,风险中性或风险承受。同时,作者使用动态规划和策略梯度算法来衡量和控制认知风险,并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。
Jun, 2019
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
本文提出并应用一种度量 Q - 值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法 F - 值。我们在 Deep Q-Networks (DQN) 中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于 CritiC 的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的 oracle 策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到 Soft Actor-Critic (SAC),并在几个常见的 Gym 环境中表明它比普通 SAC 表现更好。
Aug, 2022
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
本文研究了在对话管理环境下,采用深度强化学习框架(DQN)进行不确定性估计的方法,并与常见的基于高斯过程的方法进行了对比和基准测试,并对优化策略进行了探讨。
Nov, 2017