本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
本文研究了在线组合优化问题中的半盲反馈,提出了一种优化算法来减少期望后悔。该算法以 L_T * 的平方根为增长率,在部分反馈方案中首次实现了此类保证,并在组合设置中首次实现了此类保证。
Feb, 2015
研究在线学习问题中的反馈问题,证明反馈图的结构控制引起的学习难度,并给出了三个类别的反馈图的理论极限表现和影响。
基于分区策略,本研究提出了一种新的学习算法,用于预测与专家建议的问题并同时受限于反馈图结构,证明对于传递反馈图,该算法可以高效实现且达到最优遗憾界(与一个常数因子定量相近)的预测性能优化。
Jun, 2024
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019
本文针对具有强可观测无向反馈图的在线学习问题,在回报上下界方面进行了改进,并使用 FTRL 与 q-Tsallis 熵对结果进行了证明;同时扩展了该技术应用于时间变化图的情形,并提供了适用于所有 alpha>1 的改良下界。
May, 2023
研究非随机赌博环境下的遗憾界,提出了基于 FTRL with Tsallis entropy 的算法转化方法。
Dec, 2021
本论文主要介绍了一种基于反馈图的顺序学习问题,提出了一个名为 problem complexity 的新概念,并创建了一个既定算法,实现了对此设置的最小化失望度量的最优解。
Jun, 2023
我们研究了在线线性优化问题,探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量,并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案,并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。
May, 2011
本文围绕多项式逻辑选择模型,研究了在线学习中集合选择的组合优化问题及其相关算法,并通过实验验证了理论结果。
Mar, 2019