MNL-Bandit: 一个动态学习方法用于选品

Jun, 2017

MNL-Bandit: 一个动态学习方法用于选品

MNL-Bandit: A Dynamic Learning Approach to Assortment Selection

Shipra Agrawal, Vashist Avadhanula, Vineet Goyal, Assaf Zeevi

TL;DR本论文提出一种动态选货方案，使用多项式逻辑选择模型并同时探索和开发以达到近乎最优的性能，可在不知道时界长度的情况下进行完全在线实现，并且在良好分离的情况下以及分离不成立的一般参数设置下的表现也接近最优。

Abstract

We consider a dynamic assortment selection problem, where in every round the retailer offers a subset (assortment) of $N$ substitutable products to a consumer, who selects one of these products according to a multinomial logit (MNL) choice model. The retailer observes this choice and t

dynamic assortment selection multinomial logit choice model exploration-exploitation formulation mnl-bandit problem online algorithm

发现论文，激发创造

在线 MNL 选择下的联合搭配与库存优化

本文研究一种在线联合分类 - 库存优化问题，提出一种算法以在探索与利用之间找到平衡点，并进行数值实验以验证算法的有效性。

Apr, 2023

关于 MNL-Bandit 组合选择模型的紧密下限的说明

考虑多项式对数式组合 (MNL) 赌博模型下的动态组合规划问题，证明了关于累计遗憾的严格下界和现有遗憾上界相匹配，适用于所有参数（时间范围 T，物品数量 N 和最大组合容量 K），并减小了现有研究中上下限遗憾之间的 O (√K) 间隙。

Sep, 2017

多项逻辑 - 赌博机的汤普森采样

本文研究了一种序贯子集选择问题，并提出了一种基于 Thompson Sampling 算法的适用于多项式逻辑模型选择模型的求解方法，能够在绝大多数情况下获得接近最优水平的收益，并在数字实验中取得有趣的实验结果。

Jun, 2017

线性效用函数的多项式 Logit 老虎机

该论文提出了一种算法 LUMB 来解决使用线性效用 MNL 选择模型的多项式对数拉致问题，证明此算法比以往算法更优，无需考虑候选集大小。

May, 2018

多项式 Logit 上下文强化学习：可证优化与实用性

本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题，提出了基于上界置信度算法的解法，并得到了近似最优的遗憾上界；进一步，我们研究了该模型的极大似然估计量的置信度界，为实际应用提供了理论指导。

Mar, 2021

非平稳环境下的 MNL-Bandit

本文研究在非稳态环境下的 MNL-Bandit 问题，提出一种算法，其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K})^{\frac {1}{3}} T^{\frac {2}{3}} + \sqrt {NT}\right\} )$，并基于 2016 年 Agrawal 等人提出的周期算法，引入了新的技术和思想来解决非稳态问题中的挑战，特别是针对非稳态引入的偏差，得出了紧密的表征以及新的浓度界限。

Mar, 2023

动态情境信息下的产品组合优化

本文研究了长度为 T 的有限销售季节下的动态组合优化问题，其中包括了具有属性信息的产品的线性关系和上置信界 (UCB) 算法，并使用组合优化法进行了解决。

Oct, 2018

双重高维情境赌臂：联合组合定价的可解释模型

我们提出了一种基于上下文强化学习的联合组合和定价方法，该方法可以在零售业务中解决选品问题和定价问题，通过计算和真实案例研究证明了该方法的有效性。

Sep, 2023

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

线性赌博机中的即时模型选择

在线学习在模型选择时可以通过对线性赌博机进行全信息反馈来改进性能，从而在 M 个模型中具有对数级的依赖性，而不需要先验知识或纯探索阶段。

Jul, 2023