该研究提出了在线线性优化问题的带有bandit反馈的算法,并使用Mirror Descent算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略,证明了计算上以及最小二乘上的结果优化,为输出结果减少了冗余的符号。
Feb, 2012
研究在线学习问题中的反馈问题,证明反馈图的结构控制引起的学习难度,并给出了三个类别的反馈图的理论极限表现和影响。
Feb, 2015
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
本文提出了一种忽略一定程度下最优性差距的Bandit算法,并以其为基础,设计优化算法Thompson Sampling(ε-TS)。研究结果表明,该算法能够在一定程度上避免过度探索问题,并在保证性能的前提下,提高计算效率。
Aug, 2020
本文针对具有强可观测无向反馈图的在线学习问题,在回报上下界方面进行了改进,并使用 FTRL 与 q-Tsallis 熵对结果进行了证明;同时扩展了该技术应用于时间变化图的情形,并提供了适用于所有 alpha>1 的改良下界。
May, 2023
研究了在最大价值和指标反馈下的组合多臂赌博问题,并提出一种算法来保证概率有限支持中随机手臂结果的遗憾。
本论文主要介绍了一种基于反馈图的顺序学习问题,提出了一个名为 problem complexity 的新概念,并创建了一个既定算法,实现了对此设置的最小化失望度量的最优解。
Jun, 2023
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为BAI提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题,在该模型中,每个智能体面临一个有限的臂集,并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂,其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均,这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度,但最优遗憾问题仍然是开放的。在这项工作中,我们解决了这个问题,并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外,我们还展示了只需要一个小的常数期望通信轮数。
Dec, 2023
通过受限反馈模型,本研究提供了关于“专家建议问题”的最坏情况后悔度的新的下界和上界,其中下界为O(sqrt(KT ln(N/K))),上界与之相匹配,并改进了现有最佳下界sqrt(KT (ln N) / (ln K))。同时,对于标准反馈模型,本研究提供了一种新的基于实例的上界,该上界取决于专家之间的一致性,并相比之前的结果提供了对数级的改进。
Jun, 2024