针对性营销的赌徒式利润最大化
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
Feb, 2016
考虑具有有限供应的动态定价问题,研究非依赖事先信息的机制,与依赖事先信息的机制进行对比分析,最终利用多臂老虎机方法提出了可行的动态定价机制,该机制的收益与离线基准相差最多 O ((k log n)^(2/3)),在 k/n 足够小的情况下,该机制的表现可以被提高到 O (√k log n)。
Aug, 2011
本文提出了针对动态定价情况下买家分组的拍卖模型,通过对分布无关和分布相关情况进行分析,得到了买家估价分布的上下界,提出了一种上界近似算法,并给出了其退化情况的解法。
Jul, 2018
本文探讨在 Learning to Price 的环境下,当买家估值是一个移动目标的情况下,寻找一种使卖家能最大化收益的算法,并提供了对于最优收益损失的上下界限制。由于目标一直在移动,所以算法必须在探索和利用之间不断切换来保持最新的信息。
Jun, 2021
在基于赌博学习模型中,研究了顺序发布定价和后悔边界,得到了针对不同分布情况下的几乎最优后悔边界,尤其是对于正常分布的情况,基于收益函数在价值空间中的新型半凹特性,实现了新的结果。
Dec, 2023
介绍了一种称为带背包的赌徒问题的通用模型,结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题,它们的报酬接近于信息论上的最优解,但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。
May, 2013
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心 + HL 和 E - 贪心 + EL,以优化探索,并使用计算机模拟研究了各种均衡的出现,并进行了联合累积损失的实证分析。
Jan, 2022
旨在最大化社会福利,我们研究重复选择政策的问题,由私人效用和公共收入构成的加权和。通过实验证明,我们获得了与误差下界相匹配的上界,表明福利最大化比多臂赌博问题更困难,且我们的算法实现了最佳速率。
Oct, 2023