通过结构对照推断实现费用效益的激励分配

Feb, 2019

通过结构对照推断实现费用效益的激励分配

Cost-Effective Incentive Allocation via Structured Counterfactual Inference

Romain Lopez, Chenchen Li, Xiang Yan, Junwu Xiong, Michael I. Jordan...

TL;DR针对现代市场营销中的一个实际问题，我们提出了一种新的方法来解决策略优化问题，并构建了一种带约束的反事实策略优化模型。我们将奖励估计问题作为带有附加结构的域适应问题，并使用估计器进行带约束优化策略。我们证明了我们的估计程序具有理论误差界，并且我们在合成和真实数据集上证明了该方法明显改善。

Abstract

We address a practical problem ubiquitous in modern marketing campaigns, in which a central agent tries to learn a policy for allocating strategic financial incentives to customers and observes only bandit feedback

policy optimization financial incentives bandit feedback reward structure budget constraints

发现论文，激发创造

受潜在混淆因素影响的序列反事实决策制定

通过建立反事实政策空间，将代理者的内在偏好作为软干预的输入，研究了随机试验在因果混淆时的局限性。

Jun, 2022

激励感知的合成对照：通过激励式探索实现准确的反事实估计

我们提出了一种在面板数据设置中激励探索的合成控制方法，通过利用信息设计和在线学习的工具，为单位提供适用的干预建议，从而在不需要明确的单位结果重叠假设的情况下获得有效的对照估计。

Dec, 2023

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

基于反事实数据增强的高效强化学习

该研究提出一种数据效率的强化学习算法，利用结构因果模型来进行状态动态建模，从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。

Dec, 2020

序贯决策的假设解释学习

通过对专家行为的建模和学习，该论文提出了一种可解释的决策制定方法，使用 “假设” 结果的偏好来模拟专家的奖励函数，该方法将反事实推理集成到批量反向强化学习中，能够自然地适应历史记录依赖的环境，同时也满足现实世界决策制定的约束条件。

Jul, 2020

决策、反事实解释与战略行为

本文旨在在战略环境下寻找最优的政策和对策解释，包括 NP 难的问题，非降性和子模性，用标准贪心算法获得近似保证。最后，我们表明通过将拟阵约束加入问题的制定中，我们可以提高对策解释的最优集合的多样性，并激励整个人口谱上的个体自我改进。

Feb, 2020

反事实和合成控制的精确稳健的符合性推断方法

介绍了针对政策评估的反事实和合成控制方法的新推断过程。将因果推理问题重新表述为反事实预测和结构性断裂检验问题，并开发置换推断过程以适应现代高维度估计器，能在弱和易验证的条件下有效地进行，并证明了对错误说明的稳健性。本方法可以与许多不同的方法结合使用，用于在没有政策干预的情况下预测反事实均值结果。我们的方法在模拟中表现出优秀的小样本性能，并进行数据应用，重新评估取消室内卖淫的后果。

Dec, 2017

通过分位数回归推进相对论推断

该论文旨在通过使用神经网络将反事实推理重新构建为扩展的分位数回归问题，依据已学习的定性因果结构和观测数据进行可靠的反事实推理，而不需要给定因果模型甚至直接估计条件分布，并且该方法比现有方法在统计上更有效，同时也有可能将所估计的反事实结果的泛化能力扩展到看不见的数据，并提供泛化误差的上限界限。实验结果在多个数据集上强烈支持我们的理论 claims。

Jun, 2023

马尔可夫决策过程中的反事实影响

我们的工作解决了马尔可夫决策过程中反事实推断的基本问题，介绍了基于对比反事实和干预分布的影响比较的算法构建反事实模型，并推导出非最优政策以适应观察路径时的影响约束。

Feb, 2024

基于模型的约束 MDP 在序列激励营销中的预算分配

本文提出采用 CMDP 框架和模型规划相结合的学习算法，解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。

Mar, 2023