看到并不意味着信仰：针对虚假相关性的强化学习

Jul, 2023

看到并不意味着信仰：针对虚假相关性的强化学习

Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation

Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao

TL;DR本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题，提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs，并在真实的自动驾驶和操作环境中验证了其卓越性能。

Abstract

robustness has been extensively studied in reinforcement learning (RL) to handle various forms of uncertainty such as random perturbations, rare events, and malicious attacks. In this work, we consider one critic

reinforcement learning robustness spurious correlation markov decision processes self-driving cars

发现论文，激发创造

ReCCoVER：检测可解释强化学习中的因果混淆

本文提出了 ReCCoVER 算法，该算法可以在出现因果混淆的情况下增强深度强化学习智能体的透明度和可靠性，并为开发人员提供基于实际状态空间的特征选择建议。

Mar, 2022

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

通过干预解决环境因果模型中的伪相关性

本文提供了几种干预方法用来解决因果模型中出现的假相关问题，并在强化学习环境中的实验结果也表明，相较于使用随机数据或基于环境奖励的数据进行模型学习，本文的方法能够得到更好的因果模型。

Feb, 2020

通过损坏的奖励通道进行强化学习

该研究论文探讨了在强化学习中出现奖励数据错误的情况，提出了一种通用的马尔可夫决策问题模型（Corrupt Reward MDP），并结合反向强化学习和半监督强化学习的策略对奖励数据错误的解决方法进行了探讨。同时指出在某些假设下通过随机化也可以部分解决奖励数据错误的问题。

May, 2017

富有信念的悲观 Q 学习用于对抗敌对状态扰动

我们提出了一种新的强化学习 (RL) 算法，通过得到一种悲观策略来保护代理对真实状态的不确定性，并结合置信状态推理和基于扩散的状态净化来降低不确定性，实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。

Mar, 2024

通过人工注释提高对错相关性的鲁棒性

本文提出了一种机器学习模型稳健性的框架，通过人类关于因果关系的常识知识来解决模型在训练和测试过程中的不一致性问题。透过在每个训练数据中加入人类标注的潜在未测变量，将问题转化为协变量转移问题，并引入分布稳健优化目标来控制测试时偏移的最坏情况损失，实验结果表明，在具有旋转混淆的数字识别任务和分析 NYPD 警务巡逻地点混杂的任务中能获得 5-10% 和 1.5-5% 的性能提升。

Jul, 2020

扰动奖励的强化学习

本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略，实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。

Oct, 2018

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

强化学习中的观测过拟合

本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架，我们对观测空间进行修改以设计多个综合性的基准测试，并通过实验展示了与隐式规范和泛化性之间的关联

Dec, 2019