Jul, 2020

上界逆事实置信区间:一种新的胜算原理用于上下文多臂赌博机

TL;DR本文研究实现条件下的通用上下文医生模型并提出了一种名为 'Upper Counterfactual Confidence Bounds' 的乐观算法,该算法通过在策略空间而非行动空间分析置信区间以及利用潜在功能视角表达在上下文环境中乐观情绪的作用来解决大上下文空间下的问题,并通过引入‘反事实行动偏差’的概念来扩展 UCCB 原理以涵盖无限行动空间。