在线持续上下文推荐系统超参数优化

ICMLFeb, 2023

在线持续上下文推荐系统超参数优化

Online Continuous Hyperparameter Optimization for Contextual Bandits

Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee

TL;DR本文提出了第一个在线连续超参数调整框架，即 CDT 框架，用于学习最佳超参数配置，可以在不预设候选超参数组合的情况下调整上下文 bandit 算法，其中使用 Zooming TS 算法进行探索和重启技术来避免环境切换，并提供更好的实验结果。

Abstract

In stochastic contextual bandit problems, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on their multiple hyperpara

stochastic contextual bandit hyperparameter tuning thompson sampling cdt framework sublinear regret

发现论文，激发创造

上下文赌博机的超参数调整

本文探讨了在线学习环境下，通过使用赌博机算法来自动确定探索参数，优化上下文赌博算法探索与利用的平衡问题。

May, 2020

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020

连续动作下高效的上下文强化学习

我们创建了一个计算可行的算法，用于具有未知结构的连续操作的上下文强盗问题，并且它与大多数监督学习表示法相结合，我们证明它可以在一般意义下工作，并通过大规模实验验证了新功能。

Jun, 2020

一种新的非平稳情境赌博算法：高效、最优和免参数

提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法，通过引入回放阶段来保持对非平稳的探索，并在探索和开发之间保持良好的平衡。

Feb, 2019

具有连续动作的上下文臂机：平滑、缩放和自适应

研究了一个抽象策略类和连续动作空间下的情境赌博学习，得到了与平滑策略类竞争以及要求标准 Lipschitz 条件的两个不同的遗憾界限。同时，我们研究了适应未知平滑参数的问题，建立了可适应性的代价，并推导出需要额外信息的最优自适应算法。

Feb, 2019

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

具有自适应上下文的因果情境助推

我们研究了一种因果背景下的情境式赌博问题，学习者基于由其选择的初始干预进行上下文选择。在每一轮开始时，学习者根据其选择的初始行动选择一个随机上下文并获得奖励。通过引入一个与实例相关的因果参数 λ 来实现上界，并且通过使用凸优化来解决赌博探索问题。我们的实验结果验证了我们的理论，并在项目的 GitHub 存储库上发布了我们的代码。

May, 2024