介绍了在上下文密集应用中的模型选择问题及其解决方案,该方案适用于线性上下文密集应用,并在先验知识下达到了较低的后验概率。
Jun, 2019
本文旨在解决两个流行的随机线性赌博机问题的模型选择问题,并提出了一种算法来适应未知的问题复杂性,其利用参数范数作为线性赌博机模型选择的标准,以帮助选择正确的模型。
Jun, 2020
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
研究高维稀疏特征的随机线性臂模型中,在数据匮乏的情况下,特征向量遵守固定的探测分布,通过探索然后提交算法,得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。
Nov, 2020
本文研究了多臂赌博问题中适应因果结构的问题,探讨了条件性有利结构和任意环境中学习性能的权衡关系,并通过将问题转化为线性赌博设置,首次获得了因果赌博的实例相关界。
Jul, 2024
在线学习在模型选择时可以通过对线性赌博机进行全信息反馈来改进性能,从而在 M 个模型中具有对数级的依赖性,而不需要先验知识或纯探索阶段。
Jul, 2023
本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在 $S$ 未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间,并结合一种新颖的层级置信区间随机模型选择方法。当 $S$ 已知时,我们的分析恢复了对于对手动作集的最先进界限。我们还表明,我们的方法的一种变体,使用 Exp3 动态选择置信区间,可用于提高随机线性臂问题的实证性能,同时享受对于时间段的最优遗憾界限。
Jun, 2024
该研究提出了在线线性优化问题的带有 bandit 反馈的算法,并使用 Mirror Descent 算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略,证明了计算上以及最小二乘上的结果优化,为输出结果减少了冗余的符号。
Feb, 2012
提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法,解决了低秩线性赌博机问题,具体算法延伸自探索子空间再精炼算法,可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。