AAAIJan, 2021

高置信度离线(或反事实)方差估计

TL;DR本文研究了在先前政策数据的基础上提出新政策的高置信度保障及其在高风险应用中同样重要的回报方差的高置信度保障的离线估计和界定问题。