Feb, 2021

DEUP:直接预测认知不确定性

TL;DR本文提出了一种直接估计超额风险的基于学习次级预测器和减去自身不确定性估计的框架,探讨了其与贝叶斯后验方差等主流方法的不同和改进点,并在一系列实验中展示了这种新方法在迭代学习和探索性强化学习等方面的优越性。