我们提出了一种新的分析框架,将俄罗斯和范・罗伊(2018 年)的信息导向抽样的贝叶斯理论与 Foster 等人(2021 年)的最坏情况理论基于决策估计系数相结合,通过我们的算法模板 Optimistic Information-Directed Sampling,可以实现与经典贝叶斯 IDS 方法类似的实例相关遗憾保证,但不需要任何贝叶斯假设。我们分析的关键技术创新是引入一种乐观的替代模型来衡量遗憾,并使用它来定义俄罗斯和范・罗伊(2018 年)的信息比率和 Foster 等人(2021 年)的决策估计系数的较少保守版本。
Feb, 2024
通过 Bregman 分歧诱导的镜像下降是双重黎曼流形上的自然梯度下降算法,使用对数似然损失的镜像下降在指数族参数估计中渐近地达到了经典的 Cramer-Rao 下限,指数族对应的流形的自然梯度下降可以通过镜像下降实现一阶方法。
Oct, 2013
研究使用镜像下降和熵正则化的方法在维度上实现对于一系列的一般化后的后悔情况的误差上界,其中包括了位移、自适应、折扣等等,并且得到了和权值分享方法的等价结果。研究同时提出了对于小的误差和参数的自适应调整等的改进。
Feb, 2012
本论文提供了一种新的、基于编码的方法,用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性,其通过熵以及由于动作数量的不断增加,熵可以变得无限大。通过引入率失真的概念,建立了新的界,从而通过信息理论的方法来推导线性选择组失策问题的几乎最优界,并提供了逻辑选择组失策问题的一个界,比以前提供的界显著改善。
May, 2018
本文提出了基于近似镜像下降的一类在线分布式优化算法,以 Bregman 距离为测量函数,包括欧几里得距离作为特例,考虑两种标准信息反馈模型,并通过在线分布式正则化线性回归问题的仿真结果验证了算法的性能。
Apr, 2020
本研究通过引入异方差噪声,重新考虑了随机赌博机问题,并提出了一种基于高斯处理模型的叫做 IDS 的新方法,该方法可以减小后悔和信息误差之间的比率,以优化贝叶斯优化算法。
Jan, 2018
该研究提出了一种新的信息导向采样的方法,它适用于在线优化问题,通过学习部分反馈,决策者需要在探索和利用之间取得平衡。
Mar, 2014
本文研究具有随机约束的在线凸优化问题,提出了一种新的原始 - 对偶镜像下降算法,其可以在不需要 Slater 条件的情况下达到与先前的方法相似的性能并允许等式约束。
Aug, 2019
介绍了一种基于信息导向采样(IDS)框架的简单高效的针对动作数有限的随机线性赌博机问题的算法,在有限时间内渐近最优,并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡,并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明,IDS 在有限时间内与 UCB 竞争力强,在渐近阶段更优。
Nov, 2020
本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界,在计算上能够高效地实现稀疏 IDS,通过数值实验表明相对于几个基线算法,稀疏 IDS 有明显的遗憾减少。
May, 2021