本文介绍了一种离线评估过程,用于突出应用强化学习政策可能产生与观察到的政策实际产生的结果有实质性不同的情况。我们使用结构性因果模型生成反事实轨迹,以在高风险环境(例如,医疗保健)中进行离线政策调试。通过分解期望收益之间的差异,可以标识最具戏剧性的反事实奖励差异的情节。我们使用感染管理的合成环境证明了这种过程的实用性。
May, 2019
在因果建模领域,潜在结果和结构因果模型是主要框架。然而,这些框架在实际建模反事实时面临着明显的挑战,形式化表现为潜在结果的联合分布参数。本文通过对潜在结果和结构因果模型在建模反事实中的研究,提出了 “退化反事实问题” 这一内在模型容量限制,并引入了一种新的 “分布一致性” 假设,基于该假设提出了增强建模反事实能力的 “分布一致性结构因果模型”。通过引入可识别的因果参数 “一致性概率”,在个性化激励示例中展示了 DiscoSCM 在实践中的实际意义。此外,还在 DiscoSCM 框架中提供了关于 “因果阶梯” 的全面理论成果,希望为反事实建模的未来研究开辟新的方向,从而增强我们对因果关系及其在现实世界应用领域的理解。
Jan, 2024
本文提出了一种新的方法 ——C-CHVAE,该方法可以生成可实现的反事实解释,以更好地满足反事实解释的质量要求。
Oct, 2019
通过采用贝叶斯层级模型来建模不确定性,本文解决了连续设置中对反事实分布的模棱两可性问题,特别是在贝叶斯变形高斯过程中,允许非高斯分布和非加法噪声,成功应用于一个合成和半合成的案例,并展示了在算法补救下游任务中的性能。
Sep, 2023
本文提出一个新的概率模型,用于计算模型的多个对抗性解释。该模型可以共享群体分组的信息,并保留领域特定的约束条件,同时评估不确定性,并得出合理、稀疏、多样和可行的结果。
Jan, 2023
该论文介绍了因果建模框架中的反事实退化问题,并提出了 DiscoSCM 框架作为解决方案,该框架结合了潜在结果和结构因果模型的优势,并展示了在单位选择问题上的出色表现。
我们的工作解决了马尔可夫决策过程中反事实推断的基本问题,介绍了基于对比反事实和干预分布的影响比较的算法构建反事实模型,并推导出非最优政策以适应观察路径时的影响约束。
Feb, 2024
时间序列模型在对数据流进行估计时通常假设数据没有被破坏。然而,本研究提供了一种新颖的概率视角,探讨了自私的对手如何通过破坏数据来操纵隐马尔可夫模型的推断,进而影响决策者的结论。研究中开发了一套考虑实际不确定性和不同攻击目标的数据破坏问题,提出了三种从频率主义和贝叶斯主义角度解决问题的方法,并通过大量经验测试证明了每种方法的有效性。该研究强调了隐马尔可夫模型在面对对手活动时的弱点,从而促使我们采取鲁棒化技术来保证其安全。
提出一种用于模拟具有离散和连续变量条件的反事实分布的算法,该算法可用于粒子滤波器,可应用于信贷评分中的公平性分析。
Jun, 2023
使用反事实关键词和双模式验证过程,该论文提出了一种增强大型多模态模型在处理错误回应和无关回应时的可靠性的方法,以减轻幻觉现象并提高模型的可信度。
Mar, 2024