Mar, 2023

保守型脱机策略评估的幻觉对抗控制

TL;DR该研究提出了一种基于不确定性感知的学习模型的保守估计方法HAMBO,通过幻想最坏情况下的轨迹,并考虑其误差范围,从而得到给定策略性能的下界,且该方法在碳水化合物控制环境等场景中有效。