- 不安定线性赌臂机
基于线性赌博问题的更一般的表述考虑了随时间的依赖性,提出了一个近似算法 LinMix-UCB,该算法在依赖性较强的情况下能够控制误差并保证次线性后悔。
- 具有 ReLU 神经网络的随机赌博机
考虑具有 ReLU 神经网络结构的随机赌博问题,提出了一种 OFU-ReLU 算法,通过在探索阶段准确学习 ReLU 参数并将问题转化为线性赌博问题,在转换特征空间中实现平衡的探索和利用,并提供与模型参数无关的理论保证。
- 基于几何意义的线性赌博机算法平衡性能和理论保证
该论文提出了一种基于数据驱动技术的算法,利用不确定椭球的几何性质追踪算法的习得性能,在不同的问题实例上实现实例相关的频率遗憾边界,从而实现算法实例纠错,并在保留基础算法大部分优良性质的同时,达到最小化讽刺性遗憾代价。
- 具未知因果图的加性因果赌博机
该研究探讨了在因果图模型下的因果 Bandit 问题,提出了基于线性问题的算法来解决这个问题,在未知因果图情况下也能有效地辨别最佳干预措施。
- 稀疏线性动态单臂赌博问题的协作阈值套索算法
本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法,通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息,达到降低通信成本、保证最小累计遗憾值的效果,并在合成和真实场景下验证了方法的有效 - 结合随机赌博机的上置信界
提出一种基于元 - UCB 算法的简单方法,用于组合随机赌博算法,提高在劣势环境下的表现,实验结果表明算法可以在多种场景下取得与下界一致的效果,已验证线性赌博和模型选择问题的有效性。
- 改进的赌博机路径遗憾界
研究自适应遗憾边界,提出新型算法来解决多臂赌博机和线性赌博机问题上的路径长度边界,并将这些结果扩展到线性赌博机上,提出了一种基于乐观镜像下降框架的简单追踪算法和动态遗憾结果。
- 针对多种动作的汤普森取样的信息论分析
本论文提供了一种新的、基于编码的方法,用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性,其通过熵以及由于动作数量的不断增加,熵可以变得无限大。通过引入率失真的概念,建立了新的界,从而通过信息理论的方 - 多臂赌博机中的稀疏性、方差和曲率
研究了在线学习理论,特别是有限反馈情况下的敌对多臂赌博和线性赌博设置,并解决了几个关于算法存在优势遗憾边界的开放性问题,得出某些情况下的优势遗憾边界。
- NIPS线性赌博机中的最优臂识别
本文研究线性贝叶斯最优化模型中的最优臂选择问题,提出样本分配策略来识别具有固定置信度的最优臂,并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值,并将其与最优实验设计中使用的 G - 最优准则进行比较。