关于在线排名中的最小化后悔问题与前 k 反馈

Sep, 2023

关于在线排名中的最小化后悔问题与前 k 反馈

On the Minimax Regret in Online Ranking with Top-k Feedback

Mingyuan Zhang, Ambuj Tewari

TL;DR在线排名中，使用学习算法对一组项目进行顺序排名，并将排名的相关度以反馈分数的形式接收。本文通过解决 Chaudhuri 和 Tewari [2017] 提出的一些开放性问题，进一步研究了带有前 k 个项目反馈的在线排名问题，并为 Pairwise Loss，Discounted Cumulative Gain 和 Precision@n 等排名性能度量提供了最小化后悔率的完整刻画。此外，我们还给出了一种高效的算法，实现了在 Precision@n 上的最小化后悔率。

Abstract

In online ranking, a learning algorithm sequentially ranks a set of items and receives feedback on its ranking in the form of relevance scores

online ranking learning algorithm relevance scores partial feedback minimax regret rates

发现论文，激发创造

在线排名与 Top-1 反馈

本研究探讨了一种在线学习算法，使用新颖的 Top-1 反馈模型，评估对多样性兴趣用户的固定排名商品排名能力，并证明了其对于几种流行的排名度量具有最小化后悔的能力。

Oct, 2014

组合赌博机与相对反馈

本文围绕多项式逻辑选择模型，研究了在线学习中集合选择的组合优化问题及其相关算法，并通过实验验证了理论结果。

Mar, 2019

在线平台中自适应学习选择 - 排序

优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内，通过上界调整预测的用户满意度分数，并选择最大化这些调整分数的排序操作，以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。

Jun, 2024

了解反馈在在线学习中转换成本中的作用

本文主要研究反馈在在线学习中的作用以及它对遗憾的影响，特别是在 bandit 学习中，我们充分表征了不同反馈类型下的 minimax 遗憾，并设计了算法框架以实现匹配上限。

Jun, 2023

关于具备反馈图的在线学习的最小化后悔算法

本文针对具有强可观测无向反馈图的在线学习问题，在回报上下界方面进行了改进，并使用 FTRL 与 q-Tsallis 熵对结果进行了证明；同时扩展了该技术应用于时间变化图的情形，并提供了适用于所有 alpha>1 的改良下界。

May, 2023

关于部分反馈的多标签分类和排序

本文介绍了一种新的基于二阶下降方法的多标签 / 排名算法，该算法依赖于置信上界以平衡探索和开发，在部分对抗性环境下进行分析并展示了 O (T^{1/2} log T) 的遗憾度边界，证明了相对于现有结果在多个方面的改进，通过对真实世界的多标签数据集进行测试，我们对比了全信息的基线，经常获得可比较的性能。

Jun, 2012

反馈图网络在线学习：损失函数的真实形态

本论文主要介绍了一种基于反馈图的顺序学习问题，提出了一个名为 problem complexity 的新概念，并创建了一个既定算法，实现了对此设置的最小化失望度量的最优解。

Jun, 2023

反馈图的在线学习：超越赌博机

研究在线学习问题中的反馈问题，证明反馈图的结构控制引起的学习难度，并给出了三个类别的反馈图的理论极限表现和影响。

Feb, 2015

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019