在线非次模代价延迟最小化：从全信息到强化反馈

ICMLMay, 2022

在线非次模代价延迟最小化：从全信息到强化反馈

Online Nonsubmodular Minimization with Delayed Costs: From Full Information to Bandit Feedback

Tianyi Lin, Aldo Pacchiano, Yaodong Yu, Michael I. Jordan

TL;DR研究在线学习中的非约束非子模最小化问题，并提出了一种基于梯度下降算法的解决方案，其中考虑了非子模函数特殊结构和成本的时滞，证明了算法在静态和延迟情况下的遗憾保证。

Abstract

Motivated by applications to online learning in sparse estimation and Bayesian optimization, we consider the problem of online unconstrained nonsubmodular minimization with delayed costs in both full information

online learning unconstrained nonsubmodular minimization delayed costs bandit feedback regret guarantees

发现论文，激发创造

具有延迟组合匿名赌徒反馈的随机次模赌徒算法

本文研究了具有随机次模（期望上）奖励和完全 bandit 延迟反馈的组合多臂老虎机问题，其中假定延迟反馈是组合匿名的，同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型，给出了每种延迟模型的后悔界限，忽略问题相关参数，证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$，其中 $T$ 为时间跨度，$ u$ 根据三种情况有不同的定义，因此在所有三种延迟模型中表明了延迟对后悔的添加项，该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。

Mar, 2023

在线连续子模最大化：从完全信息到 Bandit 反馈

本文提出了三种在线算法，分别用于子模最大化问题中的函数渐变计算优化、带赌博的子模最大化问题和响应式带乘积集约束的带乘积子模问题。三个算法在达到 $(1-1/e)$ -regret bound 的前提下，分别取得了复杂度为 $O (T^{4/5})$、$O (T^{8/9})$ 以及 $O (T^{8/9})$ 的折损。

Oct, 2019

延迟反馈下的在线学习

本文系统研究了在线学习与延迟反馈的主题，分析了延迟对在线学习算法的遗憾值的影响，提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。

Jun, 2013

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

在线连续子模最大化

本文研究一种在线优化过程，其中目标函数不是凸函数（也不是凹函数），而是属于广泛的连续次模函数类。我们提出了一种 Frank-Wolfe 算法的变体，它可以访问目标函数的全梯度，并证明它对未来最佳可行解的（1-1/e）- 近似具有 O（T 的平方根）的遗憾界。对于只能获得梯度的无偏估计的情况，我们还提出了在线随机梯度上升算法，并证明它也具有 O（T 的平方根）的遗憾界，但只能对未来最佳可行解的 1/2 的近似度。我们还将结果推广到 γ- 弱次模函数，并证明相同的次线性遗憾界。最后，在几个问题实例上演示了算法的效率，包括非凸 / 非凹二次规划，子模集函数的多线性扩展和 D - 最佳设计。

Feb, 2018

在线组合优化中的遗憾

本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次优性。

Apr, 2012

组合赌博机与相对反馈

本文围绕多项式逻辑选择模型，研究了在线学习中集合选择的组合优化问题及其相关算法，并通过实验验证了理论结果。

Mar, 2019

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Jan, 2023

带有赌徒反馈的最小化最大化子模优化

利用随机 bandit 反馈在无序集合函数最大化问题中建立了首个极小极大下界，并提出了一个能够匹配下界的算法。

Oct, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023