Mar, 2023

不确定性感知的离线学习

TL;DR本研究通过显式建模不确定性,并提出一种不确定性感知的倾向得分估计器(UIPS),可改进离线策略优化,实验结果表明其比现有方法更具有样本效益。