深度强化学习中的风险和不确定性估计
本研究探讨了在计算机视觉任务中, 使用贝叶斯深度学习模型对本质和表观不确定性进行建模的影响, 并提出了一种新的深度学习框架,将输入相关的本质不确定性与表观不确定性相结合。 我们还提出了一种新的损失函数,可解释为学习的衰减,将其应用于像素级语义分割和深度回归任务中,使得模型更加鲁棒并取得新的最先进的结果。
Mar, 2017
通过跟踪每个可用行动价值的不确定性来研究针对强化学习智能体的定向探索,通过贝叶斯丢弃估计参数不确定性,通过钟形曲线的高斯分布传播来估计回报不确定性,并使用学习的分布直接推导策略。
Nov, 2017
本文提出了一种基于深度神经网络单模型的aleatoric和epistemic不确定性估计方法,分别为Simultaneous Quantile Regression(SQR)和Orthonormal Certificates(OCs),这些方法无需集成或重新训练深层模型就能达到竞争性能。
Nov, 2018
本文介绍了一种基于偏爱函数的风险感知的增强学习框架,在不确定的环境下可以通过调节风险偏好参数实现风险规避,风险中性或风险承受。同时,作者使用动态规划和策略梯度算法来衡量和控制认知风险,并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。
Jun, 2019
本文提出并应用一种度量Q-值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法F-值。我们在Deep Q-Networks (DQN)中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于CritiC的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的oracle策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到Soft Actor-Critic(SAC),并在几个常见的Gym环境中表明它比普通SAC表现更好。
Aug, 2022
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定Bellman方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
本文综述了决策制定中的不确定性状态,并关注走在经典解释之外的不确定性,尤其是区分了可变性不确定性和认知不确定性。作者提供了多种解决方案,包括离散和连续模型,从正式验证、控制抽象到强化学习, 以优秀解法应对认知不确定性, 并列举和讨论了处理丰富类型不确定性时出现的重要挑战。
Mar, 2023
我们提出了一种基于分布式强化学习的算法,通过估计参数化回报分布来统一估计aleatory和epistemic不确定性,并量化两种不确定性的综合效应以实现风险敏感的勘探。实证结果表明,我们的方法在具有勘探和风险挑战的任务中优于替代方法。
Jan, 2024
在这篇文章中,我们解决了以未知动态的有限状态马尔科夫决策过程(MDPs)的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性,以及一种无需依赖于MDP的后验分布的强假设来找到优化贝叶斯后验期望值的策略的新技术。
Jun, 2024
本研究针对传统不确定性感知时间差学习方法的误差表征和不确定性估计问题,提出了一种新的广义高斯误差建模框架。该框架通过引入高阶矩,特别是峰度,提高了数据依赖噪声的估计和减轻效果,进而在政策梯度算法中表现出显著的性能提升。
Aug, 2024