延迟反馈的平滑顺序优化

KDDJun, 2021

Smooth Sequential Optimisation with Delayed Feedback

Srivas Chennu, Jamie Martin, Puli Liyanagama, Phil Mohr

TL;DR研究表明，采用经验贝叶斯收缩方法对赌博学习中的奖励估计进行优化，并基于窗口累积输入估计平滑的奖励估计，以应对延迟反馈和非稳态奖励导致的不完全知识问题，并通过数量模拟验证了该提案的优越性，可以在速度和稳定性之间取得平衡，为人类 - 有回路的顺序优化提供便利。

Abstract

stochastic delays in feedback lead to unstable sequential learning using multi-armed bandits. Recently, empirical bayesian shrinkage has b

stochastic delays multi-armed bandits empirical bayesian shrinkage reward estimation human-in-the-loop sequential optimisation

发现论文，激发创造

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

收缩双重鲁棒离线评估

提出了一个基于重要性权重收缩的新框架，用于设计背景依赖赌博机的估算器，得到了三个估算器，包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器，并在基准问题中进行了广泛的实验，表明该估算器高度适应性，并且通常优于现有的方法。

Jul, 2019

核心赌徒中的延迟反馈

该研究提出了一种算法来解决具有随机延迟反馈的内核赌博问题，其具有非常相似的复杂性界限，而且，与现有算法相比表现出了更好的表现。

Feb, 2023

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

可解释的序列优化的动态内存

本论文提出了一种基于自适应贝叶斯学习的代理学习算法来解决强化学习中不稳定情况下的记忆流失问题，并通过统计假设检验实现了可解释性，表现良好。

Jun, 2022

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

基于劫匪反馈的随机结构化预测

该论文讨论了利用随机结构预测和 Bandit 反馈学习协议来解决自然语言处理中的问题的方法，并对于凸和非凸目标进行了分析和实验评估，得到在最小梯度范数和最佳任务性能的优化标准下，利用非凸目标获得了最终的最佳结果。

Jun, 2016

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018