Jan, 2024

统一的不确定性感知探索:结合认知和随机不确定性

TL;DR我们提出了一种基于分布式强化学习的算法,通过估计参数化回报分布来统一估计 aleatory 和 epistemic 不确定性,并量化两种不确定性的综合效应以实现风险敏感的勘探。实证结果表明,我们的方法在具有勘探和风险挑战的任务中优于替代方法。