开放问题:上下文赌博机的模型选择
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。
Mar, 2020
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本研究提出了一种新的算法,用于解决上下文 Bandit 问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法,通过整合因果推断文献中的平衡方法来降低其偏差估计的问题,并对具有平衡的线性上下文匹配算法进行损失分析,从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。
Dec, 2018
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非常复杂的问题,因为策略依赖于嘈杂的上下文观察。
Jul, 2023