在线一位反馈随机线性优化

Sep, 2015

Online Stochastic Linear Optimization under One-bit Feedback

Lijun Zhang, Tianbao Yang, Rong Jin, Zhi-Hua Zhou

TL;DR本文研究在线随机线性优化的特殊赌徒环境，其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量，并旨在最小化未知线性函数定义的遗憾。为了解决此挑战，我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。

Abstract

In this paper, we study a special bandit setting of online stochastic linear optimization, where only one-bit of information is revealed to the learner at each round. This problem has found many applications including online advertisement and online recommendation. We assume the binary feedba

online learning linear optimization binary feedback logit model regret

发现论文，激发创造

在线凸优化的广义方法

本研究分析了在线凸优化问题在不同情境下的处理方法，并在具有完全适应性对手的在线线性优化算法为在线凸优化算法提供了一个模板，同时将需要完全信息反馈的算法转换为具有相近遗憾界限的半强盗反馈算法。此外，通过对半强盗反馈中使用确定性算法的完全适应性对手和使用随机算法的毫无意识对手进行比较，我们证明了可以在面对不可避免对手时，设计针对完全适应性对手的算法使用仅具有随机半强盗反馈也能获得类似界限。基于此，我们提出了将一阶算法转换为零阶算法，并具有相近遗憾界限的通用元算法框架。我们的框架允许在不同情境下分析在线优化，如全信息反馈、强盗反馈、随机遗憾、对手遗憾和各类非稳定遗憾。利用我们的分析，我们提供了第一个使用线性优化预言机的无投影在线凸优化算法。

Feb, 2024

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

赌博机凸优化问题的最优算法

本文针对带有随机反馈的在线凸优化问题（称为 bandit convex optimization），通过将椭球法应用于在线学习，给出了第一个 $\tilde {O}(\sqrt {T})$-regret 算法，并引入了离散凸几何中的新工具。

Mar, 2016

带有赌博反馈的非随机控制

本文研究了控制具有对抗扰动的线性动态系统的问题，其中控制器仅有可用的标量损失反馈，且损失函数本身未知。针对这个问题，无论系统是否知道，我们都提出了一个有效的次线性后悔算法，并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法，这可能是独立学科领域的一个难点。

Aug, 2020

在线线性优化带赌博式反馈的极小极大政策

该研究提出了在线线性优化问题的带有 bandit 反馈的算法，并使用 Mirror Descent 算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略，证明了计算上以及最小二乘上的结果优化，为输出结果减少了冗余的符号。

Feb, 2012

重复拍卖中的在线学习

该研究采用在线学习的方法，使用无差别反馈模型对 Vickrey 拍卖中的策略进行建模，对随机模型和对抗模型进行研究并设计相应的出价策略，为参与此类拍卖的竞标者提供了第一个完整的策略集。

Nov, 2015

带有强盗反馈的随机凸优化

本文提出了一种基于随机赌博反馈模型的新型优化算法，采用椭球算法的泛化形式，对凸紧致集上的凸利普希茨（Lipschitz）函数最小化问题进行求解，证明其性能在满足一定条件下与时间步数 T 为 O（d^3/2）同阶，并获得了泛化性能的高阶乘性加速，表现出良好的应用前景和性能优势。

Jul, 2011

单调随机优化的半强盗学习

通过提供一种具有与最佳近似算法（在已知分布下）相对于平方根的 T 乘以 log T 束缚的通用在线学习算法，在半探测器环境中解决了在一大类 “单调” 随机问题中对于未知分布是否能够获得良好（近似）算法进行学习的问题。我们的框架适用于随机优化的若干基本问题，如先知不等式、潘多拉盒、随机背包、随机匹配和随机次模优化。

Dec, 2023

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

带部分信息的在线学习小损失界

研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题，在黑盒模型下能够获得如上小损失的概率，而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用，并且能够提供一些之前无法获得的最优保证。

Nov, 2017