基于 $α$- 核心的在线子集选择算法，无需增广遗憾

Sep, 2022

基于 $α$- 核心的在线子集选择算法，无需增广遗憾

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo, Siddhant Chaudhary, Samrat Mukhopadhyay, Abhishek Sinha

TL;DR本研究提出了一个名为 SCore 的在线学习策略，用于解决一类奖励函数下的最优子集选择问题，并引入了一种新的性能度量标准，即 α- 增强遗憾。研究表明，包括子模函数在内的大类奖励函数，都可以通过 SCore 策略进行高效优化。

Abstract

We revisit the classic problem of optimal subset selection in the online learning set-up. Assume that the set $[N]$ consists of $N$ distinct elements. On the $t$th round, an adversary chooses a monotone reward function $f_t: 2^{[N]} \to \mathbb{R}_+$ that assigns a non-negative reward

subset selection online learning score policy reward functions augmented regret

发现论文，激发创造

在线样本子采样与一般函数逼近在强化学习中的应用

本研究设计了一种基于在线子采样技术的强化学习算法，可带有半参考函数近似和低切换成本，并使用上置信区间的探索驱动型奖励函数在无奖励情况下探索环境，其中计算时间为 O (poly (dH))，且保证在一定轮数的探索后能输出满足给定奖励函数的 epsilon 优越策略。

Jun, 2021

在线连续子模最大化

本文研究一种在线优化过程，其中目标函数不是凸函数（也不是凹函数），而是属于广泛的连续次模函数类。我们提出了一种 Frank-Wolfe 算法的变体，它可以访问目标函数的全梯度，并证明它对未来最佳可行解的（1-1/e）- 近似具有 O（T 的平方根）的遗憾界。对于只能获得梯度的无偏估计的情况，我们还提出了在线随机梯度上升算法，并证明它也具有 O（T 的平方根）的遗憾界，但只能对未来最佳可行解的 1/2 的近似度。我们还将结果推广到 γ- 弱次模函数，并证明相同的次线性遗憾界。最后，在几个问题实例上演示了算法的效率，包括非凸 / 非凹二次规划，子模集函数的多线性扩展和 D - 最佳设计。

Feb, 2018

上下文子模预测学习策略

本文介绍了一种基于无悔学习的简单、高效、近似最优化的方法，以优化具有多种选择项的预测问题。实验验证了该方法在各种问题中的高效性和适用性，包括机械臂轨迹优化、新闻推荐和文件摘要。

May, 2013

学习严格凸形随机合作博弈的预期核心

在本文中，我们考虑了随机合作博弈的稳定分配学习问题，在这个问题中，奖励函数被描述为具有未知分布的随机变量。我们提出了一个名为 “Common-Points-Picking” 的算法，它在多项式数量的样本下，以很高的概率返回一个稳定的分配。我们的算法分析涉及了凸几何学中的一些新结果，包括多个凸集合分离超平面定理的扩展，可能具有独立的研究价值。

Feb, 2024

高效使用近似算法的在线线性优化

本文讨论在线线性优化问题，考虑可行操作集通过近似线性优化预言机具有 α 乘性逼近保证的情况，给出了新算法并提出了显著改进甚至多项式对数的预言机复杂度，同时得到了常数 c>0 的 alpha 遗憾界。

Sep, 2017

黑暗中的游戏：带有对抗性约束的无悔学习

我们研究了经典的在线凸优化（OCO）框架的一种推广，通过考虑额外的长期对抗性约束。我们提出了一种元策略，能够同时达到亚线性的累积约束违规和亚线性的遗憾，通过将约束问题转化为递归构建的一系列代理代价函数的标准 OCO 问题的黑盒减缩。我们展示了通过使用任何享有标准数据相关遗憾上界的自适应 OCO 策略求解代理问题，可以达到最优性能界限。通过一种新的基于李雅普诺夫的证明技术，我们揭示了遗憾和某些顺序不等式之间的联系，通过一种新颖的分解结果。最后，我们强调了在在线多任务学习和网络控制问题中的应用。

Oct, 2023

在线凸优化下的在线次模最大化

研究了在线环境下的通用拟阵约束下的单调子模最大化问题，证明了一大类子模函数在在线凸优化问题中的优化等价性，通过合适的舍入方案，实现了在组合优化中达到次线性后悔的 OCO 算法。同时，该规约也适用于多种不同版本的在线学习问题，包括动态后悔、游走和乐观学习等。

Sep, 2023

具有战略专家的无悔在线预测

本文研究了一种在线学习算法，该算法将多个专家的预测结果融合为一个预测结果以提高准确性，并利用特定结构的效用函数设计了激励兼容性和无悔策略两个要求的算法，以应对专家可能误导算法的情况。

May, 2023

从增强学习到无悔在线学习的降低

提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法，将强化学习问题分解成了遗憾最小化和函数逼近两个部分，并指出了这一缩减方法的重要性

Nov, 2019

离线和流式 Coreset 构建的新框架

本文提出一种改进的 coreset 构建方法，利用 sensitivity sampling 技术，并对 VC dimension 类的函数的采样复杂度进行分析，从而能够更加高效地解决包括聚类等在内的机器学习问题。

Dec, 2016