基于模型的约束 MDP 在序列激励营销中的预算分配

Mar, 2023

基于模型的约束 MDP 在序列激励营销中的预算分配

Model-based Constrained MDP for Budget Allocation in Sequential Incentive Marketing

Shuai Xiao, Le Guo, Zaifan Jiang, Lei Lv, Yuanbo Chen...

TL;DR本文提出采用 CMDP 框架和模型规划相结合的学习算法，解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。

Abstract

sequential incentive marketing is an important approach for online businesses to acquire customers, increase loyalty and boost sales. How to effectively allocate the incentives so as to maximize the return (e.g., business objectives) under the budget constraint, however, is less studie

sequential incentive marketing allocation strategy constrained markov decision process model-based planning customer acquisition

发现论文，激发创造

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021

有限马尔可夫决策问题中的勘探 - 利用

本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题，提出了两种方法：基于线性规划和基于对偶变量逐步更新的方法。研究结果表明，这两种方法都可以实现 sublinear regret，但是线性规划方法具有更强的保障性。

Mar, 2020

一种考虑长期约束条件的受限 MDPs 的最佳算法

该论文研究使用在线学习算法在约束马尔可夫决策过程中收集奖励的同时确保满足某些长期约束条件，提出了一种适用于约束性马尔可夫决策过程的最佳算法，能够管理随机和敌对条件下的奖励以及约束，并提供了理论保证。

Apr, 2023

在受限马尔可夫决策过程中的真正无悔学习

本文提出了一种基于正则化原始对偶方案的模型为基础的算法，用于学习未知的多约束 CMDP，并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。

Feb, 2024

赞助搜索的预算优化：MDP 中的屏蔽学习

本研究考虑广告主在参加重复竞价搜索拍卖时所面临的预算优化问题，将其作为带有被审查观测的马尔可夫决策过程（MDP）来建模，并提出基于 Kaplan-Meier 或产物极限估计器的学习算法。在微软广告中心的大量搜索竞拍数据上，将此算法与几种其他算法进行比较，证明其快速收敛的最佳性能。

Oct, 2012

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

营销预算分配的统一框架

本文提出了一种基于数据驱动、使用半黑盒模型和高效优化算法的营销预算配置框架，以应对在线业务中动态环境和复杂决策 - making 过程，支持多种业务约束，可以处理大规模的问题，并在阿里巴巴集团的许多场景中取得了成功的应用，离线实验和在线 A/B 测试均证明了其有效性。

Feb, 2019

学习具有随机硬约束的对抗式马尔可夫决策过程

我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程（CMDP）中的在线学习问题。我们设计了两种不同的情景，第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下，我们假设策略存在且对学习者已知，并设计了一个算法，确保次线性遗憾的同时，高概率满足所有回合的约束。据我们所知，我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求，要求比现有算法处理的要严格得多，从而能够在更广范围的实际应用中采用，包括自动驾驶、在线广告和推荐系统。

Mar, 2024

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

离线约束深度强化学习中的营销预算分配

提出一种基于值函数的强化学习方法来解决在线营销活动中利用离线数据进行预算分配的问题，该方法通过使用混合策略减少存储策略的数量，并实现了接近最优策略的效率，经过大规模的营销活动实验证明该方法优于其他基准方法。

Sep, 2023