线性效用函数的多项式 Logit 老虎机

May, 2018

线性效用函数的多项式 Logit 老虎机

Multinomial Logit Bandit with Linear Utility Functions

Mingdong Ou, Nan Li, Shenghuo Zhu, Rong Jin

TL;DR该论文提出了一种算法 LUMB 来解决使用线性效用 MNL 选择模型的多项式对数拉致问题，证明此算法比以往算法更优，无需考虑候选集大小。

Abstract

multinomial logit bandit is a sequential subset selection problem which arises in many applications. In each round, the player selects a $K$-cardinality subset from $N$ candidate items, and receives a reward whic

multinomial logit bandit subset selection mnl choice model linear utility regret

发现论文，激发创造

多项式 Logit 上下文强化学习：可证优化与实用性

本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题，提出了基于上界置信度算法的解法，并得到了近似最优的遗憾上界；进一步，我们研究了该模型的极大似然估计量的置信度界，为实际应用提供了理论指导。

Mar, 2021

多项逻辑 - 赌博机的汤普森采样

本文研究了一种序贯子集选择问题，并提出了一种基于 Thompson Sampling 算法的适用于多项式逻辑模型选择模型的求解方法，能够在绝大多数情况下获得接近最优水平的收益，并在数字实验中取得有趣的实验结果。

Jun, 2017

多项式逻辑回归赌博机的几乎极小极大后悔

本论文研究了上下文多项式逻辑（MNL）弃权问题，其中学习代理根据上下文信息顺序选择一组，用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异，并且这些边界之间奖励结构的变化使得追求最优性变得复杂。在统一奖励下，我们建立了一个遗憾下界 $Omega (dsqrt {T/K})$，并提出了一个常数时间算法 OFU-MNL+，该算法达到了上下界 $tilde {O}(dsqrt {T/K})$。在非统一奖励下，我们证明了一个下界 $Omega (dsqrt {T})$ 和上界 $tilde {O}(dsqrt {T})$，OFU-MNL+ 也可以实现这一界限。我们的实证研究支持这些理论结果。据我们所知，这是 MNL 上下文弃权文献中首次证明鞍点最优性和提出实现这一最优性的计算高效算法，达到联合因子标量对数。

May, 2024

MNL-Bandit: 一个动态学习方法用于选品

本论文提出一种动态选货方案，使用多项式逻辑选择模型并同时探索和开发以达到近乎最优的性能，可在不知道时界长度的情况下进行完全在线实现，并且在良好分离的情况下以及分离不成立的一般参数设置下的表现也接近最优。

Jun, 2017

具有一般价值函数的上下文多项式罗吉特赌博机

本研究考虑了具有广义价值函数类的上下文多项式逻辑带有多臂赌博机，并在线性情况下提出了一套算法，其表现优于现有方法，具有计算效率高、无维度遗憾界限和处理敌对环境和奖励的能力等优势。

Feb, 2024

关于 MNL-Bandit 组合选择模型的紧密下限的说明

考虑多项式对数式组合 (MNL) 赌博模型下的动态组合规划问题，证明了关于累计遗憾的严格下界和现有遗憾上界相匹配，适用于所有参数（时间范围 T，物品数量 N 和最大组合容量 K），并减小了现有研究中上下限遗憾之间的 O (√K) 间隙。

Sep, 2017

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

非平稳广义线性赌博机算法

本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Mar, 2020

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013