如此可能而不可能：反事实指导的策略搜索

Nov, 2018

如此可能而不可能：反事实指导的策略搜索

Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search

Lars Buesing, Theophane Weber, Yori Zwols, Sebastien Racaniere, Arthur Guez...

TL;DR利用结构因果模型对离线策略学习算法进行对实验数据的反事实评估，并通过模型预测提高模型预测的偏差。

Abstract

Learning policies on data synthesized by models can in principle quench the thirst of reinforcement learning algorithms for large amounts of real experience, which is often costly to acquire. However, simulating plausible experience de novo is a hard problem for many complex environmen

reinforcement learning policy search counterfactual evaluation model-based rl algorithms off-policy experience

发现论文，激发创造

使用 Gumbel-Max 结构因果模型进行反事实非政策评估

本文介绍了一种离线评估过程，用于突出应用强化学习政策可能产生与观察到的政策实际产生的结果有实质性不同的情况。我们使用结构性因果模型生成反事实轨迹，以在高风险环境（例如，医疗保健）中进行离线政策调试。通过分解期望收益之间的差异，可以标识最具戏剧性的反事实奖励差异的情节。我们使用感染管理的合成环境证明了这种过程的实用性。

May, 2019

基于反事实模型的可靠决策支持

本研究提出一种新的监督学习目标，预测反事实情况而不是预测现有行动策略下的结果，以支持决策制定，使用我们提出的反事实高斯过程（CGP）来预测在未来行动序列下连续时间轨迹的反事实未来进展，并证明其在风险预测和个体化治疗规划等决策支持任务上的优势。

Mar, 2017

强化学习中的反事实解释策略

通过引入反事实解释，COUNTERPOL 框架能够分析强化学习政策，并找到引导所需结果的政策最小改变，展示其在设计和开发反事实政策方面的实用性。

Jul, 2023

通用离线演员 - 评论家

提出了一个新的目标函数，counterfactual objective，用于解决连续强化学习中离线策略梯度算法中的问题，得到了广义离线策略梯度定理，并发展出了广义离线行动者 - 评论者算法（Geoff-PAC），通过模拟机器人实验表明其优于现有算法。

Mar, 2019

基于反事实数据增强的高效强化学习

该研究提出一种数据效率的强化学习算法，利用结构因果模型来进行状态动态建模，从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。

Dec, 2020

神经响应生成的反事实离线训练

本文提出采用反事实推理来探索潜在回应，并在 DailyDialog 数据集上实验证明在仿真产生回应时更优，训练反事实回应可以帮助探索潜在回应空间的高奖励区域。

Apr, 2020

离线强化学习的预算对比实验

本文提出了一种采用动态规划和固定点求解的方法，用以控制训练中的数据采样分布并改善数据利用效率，在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。

Jul, 2023

路径积分导向的策略搜索

本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法，该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务，该方法在使用先前的技术基础上进行了改进，使用了基于 PI2 的无模型本地优化器和使用 on-policy 抽样来训练针对一系列任务实例的复合全局策略，从而实现了直接从视觉输入执行扭矩控制的深度神经网络策略。

Oct, 2016

使用答案集编程进行反事实生成

使用基于规则的机器学习算法，自动生成反事实解释以实现透明化和可解释性。

Feb, 2024

利用反事实路径对 POMDP 策略进行对比解释

通过使用用户提供的反事实来生成 POMDP 策略的对比解释，探索可解释人工智能的方法以提高系统透明度并建立信任，本文以 Search and Rescue (SAR) 为例进行了分析和讨论相关挑战。

Mar, 2024