受潜在混淆因素影响的序列反事实决策制定
针对现代市场营销中的一个实际问题,我们提出了一种新的方法来解决策略优化问题,并构建了一种带约束的反事实策略优化模型。我们将奖励估计问题作为带有附加结构的域适应问题,并使用估计器进行带约束优化策略。我们证明了我们的估计程序具有理论误差界,并且我们在合成和真实数据集上证明了该方法明显改善。
Feb, 2019
本文介绍了一种离线评估过程,用于突出应用强化学习政策可能产生与观察到的政策实际产生的结果有实质性不同的情况。我们使用结构性因果模型生成反事实轨迹,以在高风险环境(例如,医疗保健)中进行离线政策调试。通过分解期望收益之间的差异,可以标识最具戏剧性的反事实奖励差异的情节。我们使用感染管理的合成环境证明了这种过程的实用性。
May, 2019
本文旨在在战略环境下寻找最优的政策和对策解释,包括NP难的问题,非降性和子模性,用标准贪心算法获得近似保证。最后,我们表明通过将拟阵约束加入问题的制定中,我们可以提高对策解释的最优集合的多样性,并激励整个人口谱上的个体自我改进。
Feb, 2020
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用“假设”结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
Nov, 2020
本文提出了一种基于马尔可夫决策过程和Gumbel-Max结构因果模型的动态规划算法寻找决策过程中的反事实解释来优化决策,并在认知行为治疗的合成和真实数据上进行了验证。
Jul, 2021
在可解释人工智能领域中,使用顺序反事实示例来改变经过训练的分类器的决策是常用的方法。本文针对现有方法的不足提出了使用分类器的输出概率来创建更具信息性的奖励以减轻潜在偏见等问题。
Nov, 2023
我们研究了在由基础因果图模拟的随机环境中学习'好的'干预的问题,其中'好的'干预是指最大化奖励的干预,在预定的预算限制下考虑非均匀成本的干预,我们提出了一种算法以在一般因果图中最小化累积遗憾,并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界,而实证评估结果表明,我们的算法优于现有技术。
Jan, 2024
我们的工作解决了马尔可夫决策过程中反事实推断的基本问题,介绍了基于对比反事实和干预分布的影响比较的算法构建反事实模型,并推导出非最优政策以适应观察路径时的影响约束。
Feb, 2024