一个无需参数的对冲算法

Mar, 2009

A parameter-free hedging algorithm

Kamalika Chaudhuri, Yoav Freund, Daniel Hsu

TL;DR本文聚焦于大量行动决策问题的决策理论在线学习（DTOL）。我们提出了一种全新无需参数的算法用于 DTOL，这解决了在线学习因无法在实际中优化设定学习率参数的困境。此外，我们引入了一种新的错误度量标准，该算法可以在此标准和以前的标准下实现优异的表现，接近以前有优化参数的最佳预算。

Abstract

We study the problem of decision-theoretic online learning (DTOL). Motivated by practical applications, we focus on DTOL when the number of actions is very large. Previous algorithms for learning in this framework have a tunable learning rate parameter, and a barrier to using online-le

decision-theoretic online learning large number of actions parameter-free algorithm regret optimal parameter setting

发现论文，激发创造

自适应对冲

本文介绍了一种基于 Hedge 算法且用于决策论在线学习的新方法 —— 自适应设置学习率，该方法在最坏情况下保证了最优表现，但在简单的情况下可以达到更小的错误率。除此之外，本文还提供了一项仿真研究，以比较自适应设置学习率方法与现有方法的优劣。

Oct, 2011

乐观自适应拉格朗日对冲

介绍了一种基于 Lagrangian hedging 的在线算法（包括 regret-matching 和 hedge），通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化，并给出了相应的性能界限。

Jan, 2021

加密币赌注与无需参数的在线学习

该研究在 Hilbert 空间中，通过预测对手行为的赌博机制构建了一种简单的无需调参数的学习算法，用于在线线性现行优化和专家建议学习，实现了优质的后悔约束和分析复杂度。

Feb, 2016

一种连续时间的在线优化方法

研究一种基于连续时间的在线优化策略族，证明其能够达到无遗憾学习。从传统的离散时间角度来看，这种方法可导出大量离散时间算法（包括一些经典遗憾分析算法）的无遗憾性质，并统一了许多经典的遗憾上界，得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。

Jan, 2014

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014

在线学习与不完美提示

本文提出了一种算法来处理在线学习问题，该算法能够提高在线参与者的表现并创造出令人惊讶的后果，同时也是前人算法的改进。

Feb, 2020

利用硬币投注改进强适应在线学习

本文提出了一种新的无需额外参数的在线学习算法，适用于不断变化的环境，并获得了至少 sqrt (log (T)) 倍于已有算法的强适应性遗憾界。经实验证明，在专家建议和度量学习场景中，我们的算法优于现有的最先进方法。

Oct, 2016

结合在线学习保证

本文提出了一种简单的方法，可以将两个具有不同遗憾保证的无参数在线学习算法结合起来得到一个新的算法，其遗憾值是两个算法中的最小值。此外，作者还提出了一种基于该方法的黑盒子算法，可以生成乐观的在线学习算法，并提供无拘束设定下的第一个乐观遗憾保证。

Feb, 2019

有约束的在线两阶段随机优化：具有（和不具有）预测的算法

我们考虑了一个在线两阶段随机优化问题，有关于 T 个周期的长期约束。我们通过对抗学习算法开发了在线两阶段问题的在线算法，同时，我们的算法的遗憾界可以降低到嵌入对抗式学习算法的遗憾界。基于这个框架，在不同的设置下，我们得到了新的结果。

Jan, 2024