Feb, 2024

苏格拉底的怀疑回声:在校准的证据强化学习中拥抱不确定性

TL;DR我们提出了一种新颖的统计方法,用于在无模型分布式强化学习中纳入不确定性感知,它涉及基于分位回归的深度 Q 网络。该算法称为 CEQR-DQN(Calibrated Evidential Quantile Regression in Deep Q Networks),旨在解决在随机环境中分别估计偶然性和认识性不确定性所面临的关键挑战。它将深度证据学习与基于符合推理原则的分位校准相结合,提供明确的、无需样本的全局不确定性计算,而不是基于简单差异的局部估计,从而克服了传统方法在计算和统计效率以及处理超出分布范围观察的局限性。用于一套小型 Atari 游戏(即 MinAtar)的测试中,CEQR-DQN 在得分和学习速度方面超越了类似的现有框架。它对严格评估不确定性的能力改进了探索策略,并可作为其他需要不确定性感知的算法的蓝图。