- 在线多组学习的分组式高效算法
我们研究在线多组学习的问题,这是一个学习模型,其中在线学习器必须同时在一个大规模的(可能有重叠的)子序列集合上实现小的预测遗憾,这些子序列对应于一个组的家族。在本文中,我们设计了这样的支持优化预测的算法,在多种情况下拥有亚线性的遗憾,包括: - 具有个性化奖励的可证明高效的交互式根植学习
通过与环境进行交互并观察依赖奖励的反馈,互动地接触学习(IGL)是一个强大的框架,该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题,并提出了第一个在实现性条件下能够证明高效的算法。通过分析,我们发现先前工作的阶跃函数估 - 完全无约束的在线学习
我们提供了一种在线学习算法,可以在不知道 G 或∥w∗∥的情况下,获得在 G-Lipschitz 凸损失函数上的遗憾 G∥w∗∥√(Tlog (∥w∗∥G√T)+∥w∗∥^2+G^2),这与具有此类知识的最佳界限 G∥w∗∥√T 匹配(除了 - 无遗憾并不足够!通过自适应遗憾最小化处理具有一般约束的赌博机
通过要求原始算法和对偶算法是弱自适应的,我们证明了在「背包带劫匪」框架中,能够保证子线性的对违规约束的罚值,并同时在随机和对抗的情况下提供最佳性能,并为具有线性约束的上下文劫匪问题提供了首个无 α- 遗憾的保证。
- 多阶段系统的分布式无悔学习与端到端强化学习反馈
本文研究具有端到端赌博反馈的多阶段系统,提出了分布式在线学习算法,以在对抗环境中实现次线性遗憾。
- 学习具有随机硬约束的对抗式马尔可夫决策过程
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法 - 在受限马尔可夫决策过程中的真正无悔学习
本文提出了一种基于正则化原始对偶方案的模型为基础的算法,用于学习未知的多约束 CMDP,并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。
- 黑暗中的游戏:带有对抗性约束的无悔学习
我们研究了经典的在线凸优化(OCO)框架的一种推广,通过考虑额外的长期对抗性约束。我们提出了一种元策略,能够同时达到亚线性的累积约束违规和亚线性的遗憾,通过将约束问题转化为递归构建的一系列代理代价函数的标准 OCO 问题的黑盒减缩。我们展示 - $α$- 公平上下文强化学习
设计了一种高效算法,确保在全信息和强盗反馈设置中几乎达到次线性的遗憾,以解决 alpha-fair contextual bandits 问题。
- 有限内存下降低方差的在线梯度下降法在核化对学习中的应用
在线渐减梯度法是解决涉及训练示例对的损失函数机器学习问题中至关重要的方法之一。本研究提出了一种扩展到核在线成对学习的有限内存在线渐减梯度算法,同时改善亚线性遗憾。通过构建在线渐减梯度与格雷特之间的清晰关系,并使用存储有限数量的最新分层样本构 - 重复委派选择的遗憾分析
我们针对重复委托选择问题进行了研究,首次考虑了 Kleinberg and Kleinberg, EC'18 的在线学习变体。在这个模型中,一个负责人与一个拥有外生解集的代理人反复交互,以寻找有效的解。每个解对负责人和代理人都有不同的效用, - 在线凸优化下的在线次模最大化
研究了在线环境下的通用拟阵约束下的单调子模最大化问题,证明了一大类子模函数在在线凸优化问题中的优化等价性,通过合适的舍入方案,实现了在组合优化中达到次线性后悔的 OCO 算法。同时,该规约也适用于多种不同版本的在线学习问题,包括动态后悔、游 - 带预测内容的在线强盗学习
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非 - 在线最近邻分类
研究在线非参数分类中的一个实例,并考虑经典的 1 最近邻算法,证明它在可实现设置中针对支配或平滑对手实现次线性遗憾 - 即消失的错误率。
- 无投影在线随机约束凸优化
本研究提出了一种新的不需要投影的算法框架来解决在线凸优化问题,该算法框架具有较好的性能表现并可处理多种约束情况。
- 具有弹奏反馈的安全优化中约束集的几何属性的影响
研究了带有 Bandit 反馈的安全优化问题,提出了一种针对此问题的算法,探讨了限制集合的几何特性对算法的后悔值的影响。引入了限制集合的尖锐度概念来识别可以保证这个算法后悔值的子线性下界的集合类,并给出了模拟结果支持这一下界,并证明了集合的 - ICML在线持续上下文推荐系统超参数优化
本文提出了第一个在线连续超参数调整框架,即 CDT 框架,用于学习最佳超参数配置,可以在不预设候选超参数组合的情况下调整上下文 bandit 算法,其中使用 Zooming TS 算法进行探索和重启技术来避免环境切换,并提供更好的实验结果。
- 终身赌徒优化:无先验和无遗憾
本文提出 LIBO 算法通过元学习逐步逼近真实核函数以解决序列化 Bandit 优化任务,可配合线性或基于核函数的 Bandit 算法实现次线性的令人满意的性能,文章同时介绍了以联邦学习方式解决序列化 Bandit 优化任务的 F-LIBO - 无遗憾学习匹配:基于 Markov 匹配市场的强化学习
研究马尔可夫匹配市场,提出强化学习框架,结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题,并证明算法可达到次线性的遗憾率。
- 基于 Wasserstein 的非平稳在线随机优化
本文考虑多重预算约束下的在线随机优化问题,提出了基于 Wasserstein 距离的度量方法来量化先验假设准确性和系统的非平稳性,针对信息已知和信息未知情况下分别提出了算法,均取得了优越的性能表现。