关于 MNL-Bandit 组合选择模型的紧密下限的说明

Sep, 2017

关于 MNL-Bandit 组合选择模型的紧密下限的说明

A Note on a Tight Lower Bound for MNL-Bandit Assortment Selection Models

Xi Chen, Yining Wang

TL;DR考虑多项式对数式组合 (MNL) 赌博模型下的动态组合规划问题，证明了关于累计遗憾的严格下界和现有遗憾上界相匹配，适用于所有参数（时间范围 T，物品数量 N 和最大组合容量 K），并减小了现有研究中上下限遗憾之间的 O (√K) 间隙。

Abstract

In this short note we consider a dynamic assortment planning problem under the capacitated multinomial logit (MNL) bandit model. We prove a tight lower bound on the accumulated regret that matches existing regret

dynamic assortment planning capacitated multinomial logit bandit model regret bounds logarithmic factors accumulated regret

发现论文，激发创造

MNL-Bandit: 一个动态学习方法用于选品

本论文提出一种动态选货方案，使用多项式逻辑选择模型并同时探索和开发以达到近乎最优的性能，可在不知道时界长度的情况下进行完全在线实现，并且在良好分离的情况下以及分离不成立的一般参数设置下的表现也接近最优。

Jun, 2017

多项式 Logit 上下文强化学习：可证优化与实用性

本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题，提出了基于上界置信度算法的解法，并得到了近似最优的遗憾上界；进一步，我们研究了该模型的极大似然估计量的置信度界，为实际应用提供了理论指导。

Mar, 2021

多项式逻辑回归赌博机的几乎极小极大后悔

本论文研究了上下文多项式逻辑（MNL）弃权问题，其中学习代理根据上下文信息顺序选择一组，用户反馈遵循 MNL 选择模型。我们在特征维度 d 和最大组合大小 K 之间发现了显著的遗憾下界差异，并且这些边界之间奖励结构的变化使得追求最优性变得复杂。在统一奖励下，我们建立了一个遗憾下界 $Omega (dsqrt {T/K})$，并提出了一个常数时间算法 OFU-MNL+，该算法达到了上下界 $tilde {O}(dsqrt {T/K})$。在非统一奖励下，我们证明了一个下界 $Omega (dsqrt {T})$ 和上界 $tilde {O}(dsqrt {T})$，OFU-MNL+ 也可以实现这一界限。我们的实证研究支持这些理论结果。据我们所知，这是 MNL 上下文弃权文献中首次证明鞍点最优性和提出实现这一最优性的计算高效算法，达到联合因子标量对数。

May, 2024

多项逻辑 - 赌博机的汤普森采样

本文研究了一种序贯子集选择问题，并提出了一种基于 Thompson Sampling 算法的适用于多项式逻辑模型选择模型的求解方法，能够在绝大多数情况下获得接近最优水平的收益，并在数字实验中取得有趣的实验结果。

Jun, 2017

组合多臂赌博机的紧密下界

本研究探讨了组合多臂赌博的后悔下界，并证明了在所有光滑奖励函数下，这种下界都是合理的，并且根据 Merlis 和 Mannor（2019）提出的 Gini 加权平滑度参数确定单调奖励函数的下界。

Feb, 2020

非平稳环境下的 MNL-Bandit

本文研究在非稳态环境下的 MNL-Bandit 问题，提出一种算法，其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K})^{\frac {1}{3}} T^{\frac {2}{3}} + \sqrt {NT}\right\} )$，并基于 2016 年 Agrawal 等人提出的周期算法，引入了新的技术和思想来解决非稳态问题中的挑战，特别是针对非稳态引入的偏差，得出了紧密的表征以及新的浓度界限。

Mar, 2023

在线 MNL 选择下的联合搭配与库存优化

本文研究一种在线联合分类 - 库存优化问题，提出一种算法以在探索与利用之间找到平衡点，并进行数值实验以验证算法的有效性。

Apr, 2023

线性效用函数的多项式 Logit 老虎机

该论文提出了一种算法 LUMB 来解决使用线性效用 MNL 选择模型的多项式对数拉致问题，证明此算法比以往算法更优，无需考虑候选集大小。

May, 2018

带专家建议的强盗问题的改进遗憾界限

通过受限反馈模型，本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界，其中下界为 O (sqrt (KT ln (N/K)))，上界与之相匹配，并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时，对于标准反馈模型，本研究提供了一种新的基于实例的上界，该上界取决于专家之间的一致性，并相比之前的结果提供了对数级的改进。

Jun, 2024

流式赌博问题的紧凑内存遗憾下界

这篇论文研究了流式赌博机问题，建立了时间上界、臂数、游戏轮数的算法紧确的最劣后悔下限，并证明了与分析算法复杂度上限的样本复杂性分析问题的关系。

Jun, 2023