Jun, 2024
具有时序反馈图的对抗在线学习
Adversarial Online Learning with Temporal Feedback Graphs
Khashayar Gatmiry, Jon Schneider
TL;DR基于分区策略,本研究提出了一种新的学习算法,用于预测与专家建议的问题并同时受限于反馈图结构,证明对于传递反馈图,该算法可以高效实现且达到最优遗憾界(与一个常数因子定量相近)的预测性能优化。
Abstract
We study a variant of prediction with expert advice where the learner's
action at round $t$ is only allowed to depend on losses on a specific subset of
the rounds (where the structure of which rounds' losses are visible at time $t$
is provided by a directed "→
发现论文,激发创造
带部分信息的在线学习小损失界
研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题,在黑盒模型下能够获得如上小损失的概率,而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用,并且能够提供一些之前无法获得的最优保证。
Nov, 2017
反馈图网络在线学习:损失函数的真实形态
本论文主要介绍了一种基于反馈图的顺序学习问题,提出了一个名为 problem complexity 的新概念,并创建了一个既定算法,实现了对此设置的最小化失望度量的最优解。
Jun, 2023
信息约束在线学习中的适应性
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019
具有延迟反馈的对抗性马尔可夫决策过程学习
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020