针对性营销的赌徒式利润最大化

Mar, 2024

Bandit Profit-maximization for Targeted Marketing

Joon Suk Huh, Ellen Vitercik, Kirthevasan Kandasamy

TL;DR该研究针对具有不同需求曲线的顺序盈利最大化问题，考虑价格和市场支出等附属变量的优化，提出了接近最佳的算法，并给出了不同类型需求曲线的后悔上限。

Abstract

We study a sequential profit-maximization problem, optimizing for both price and ancillary variables like marketing expenditures. Specifically, we aim to maximize profit over an arbitrary sequence of multiple

profit-maximization marketing expenditures demand curves adversarial bandit setting regret upper bound

发现论文，激发创造

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

有限供应下的动态定价

考虑具有有限供应的动态定价问题，研究非依赖事先信息的机制，与依赖事先信息的机制进行对比分析，最终利用多臂老虎机方法提出了可行的动态定价机制，该机制的收益与离线基准相差最多 O ((k log n)^(2/3))，在 k/n 足够小的情况下，该机制的表现可以被提高到 O (√k log n)。

Aug, 2011

有限未知估值的动态定价

本文提出了针对动态定价情况下买家分组的拍卖模型，通过对分布无关和分布相关情况进行分析，得到了买家估价分布的上下界，提出了一种上界近似算法，并给出了其退化情况的解法。

Jul, 2018

贝叶斯劝服下的动态定价与学习

该研究探讨在线广告和动态定价设计的问题，使用贝叶斯说服模型来研究信号对买家定价和购买决策的影响，提出了一种具有低后悔率的在线算法。

Apr, 2023

学习针对移动目标进行定价

本文探讨在 Learning to Price 的环境下，当买家估值是一个移动目标的情况下，寻找一种使卖家能最大化收益的算法，并提供了对于最优收益损失的上下界限制。由于目标一直在移动，所以算法必须在探索和利用之间不断切换来保持最新的信息。

Jun, 2021

通过半凹性进行赌徒顺序发布定价

在基于赌博学习模型中，研究了顺序发布定价和后悔边界，得到了针对不同分布情况下的几乎最优后悔边界，尤其是对于正常分布的情况，基于收益函数在价值空间中的新型半凹特性，实现了新的结果。

Dec, 2023

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

社会福利的自适应最大化

旨在最大化社会福利，我们研究重复选择政策的问题，由私人效用和公共收入构成的加权和。通过实验证明，我们获得了与误差下界相匹配的上界，表明福利最大化比多臂赌博问题更困难，且我们的算法实现了最佳速率。

Oct, 2023

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014