上下文臂选择模型
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
本文是一篇关于线性臂选模型选择的研究,提出了一种 Pareto 最优算法,能实现基于已知维度的较小假设集来平衡探索和开发,并且能够匹配模型选择问题的最低界限。
Feb, 2021
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。
Mar, 2020
本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题,提出了基于上界置信度算法的解法,并得到了近似最优的遗憾上界;进一步,我们研究了该模型的极大似然估计量的置信度界,为实际应用提供了理论指导。
Mar, 2021
本研究提出了一种新的算法,用于解决上下文 Bandit 问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要 O(log log T)批次进行学习,但在策略转换限制下需 O(dlogdlogT)次策略转换才能达到最优遗憾。
Jul, 2020
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019