不确定情况下的序列决策中的反事实解释
本文旨在在战略环境下寻找最优的政策和对策解释,包括 NP 难的问题,非降性和子模性,用标准贪心算法获得近似保证。最后,我们表明通过将拟阵约束加入问题的制定中,我们可以提高对策解释的最优集合的多样性,并激励整个人口谱上的个体自我改进。
Feb, 2020
本文引入一种新的框架,基于结构因果模型范式对随机、顺序决策系统进行因果解释,该框架可以为代理行为识别多个语义上不同的解释,并建立了准确方法和多个近似技术用于因果推断,同时探讨了一些模型的灵活性与性能,并且表明了基于该框架的方法优于其他方法。
May, 2022
本文提出了一种基于遗传算法的多目标优化方法,用于解决顺序反事实生成问题。实验结果表明,相比现有的最优方法,该方法生成的解决方案成本更低,更高效,并为用户提供了多种选择。
Apr, 2021
我们提出一个新颖的框架,用于在随机序列多智能体环境中为智能体的决策提供因果解释,通过自然语言交流回答广泛的用户查询,涉及联想、干预或反事实的因果推理。该方法不假定任何特定的因果图,而是依赖于相互作用的生成模型来模拟反事实世界,从而识别决策背后的显著原因。我们将该方法应用于自动驾驶的运动规划,并在耦合交互的模拟场景中进行测试。我们的方法可以正确地识别和排名相关的原因,并向用户提供简明的解释。
Feb, 2023
我们的工作解决了马尔可夫决策过程中反事实推断的基本问题,介绍了基于对比反事实和干预分布的影响比较的算法构建反事实模型,并推导出非最优政策以适应观察路径时的影响约束。
Feb, 2024
利用 REVISEDplus 数据驱动方法,通过在高密度区域内生成可行且合理的反事实解释,学习过程案例中活动之间的顺序模式,并评估反事实解释的有效性。
Mar, 2024
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用 “假设” 结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
基于多标准分析的多阶段集成方法能够从 Pareto 前沿中选择一个用于解释机器学习模型预测的可行对策。实验结果表明,该方法能够生成具有吸引力的多种质量度量的可操作对策。
Mar, 2024