测量强化学习中的干预鲁棒性

Sep, 2022

Measuring Interventional Robustness in Reinforcement Learning

Katherine Avery, Jack Kenney, Pracheta Amaranath, Erica Cai, David Jensen

TL;DR本文提出了干预鲁棒性的概念，并开发了一种可量化的方法来测量它。通过对八个算法和三种 Atari 环境下的干预和状态进行计算，发现干预鲁棒性因算法类型和训练次数而异，高性能不一定意味着高干预鲁棒性。

Abstract

Recent work in reinforcement learning has focused on several characteristics of learned policies that go beyond maximizing reward. These properties include fairness, explainability, generalization, and robustness. In this paper, we define →

reinforcement learning interventional robustness training procedures atari environments algorithm performance

发现论文，激发创造

评估强化学习稳定性、鲁棒性和恢复力的指标综述

本文对于强化学习的健壮性、稳定性和韧性进行了全面的文献综述，通过分类已有的定量和理论方法来评估和衡量这些行为，并提供了一个有用的决策树来选择衡量这些行为的指标，这是首个针对强化学习的稳定性、健壮性和韧性的全面综述。

Mar, 2022

ReIL: 基于强化干预的模仿学习框架

本文提出了一种基于增强和干预的多任务学习框架 --ReIL，该框架旨在实现在无需过多监督和调整的情况下，在真实环境中训练代理。实验结果表明，相较于其他基于干预的方法，ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法，能够在稀疏监督信号的情况下快速学习并保持性能。

Mar, 2022

智能驱动增强学习的鲁棒性评估

采用奖励机制的智能驱动增强学习的鲁棒性问题需要进一步研究以加强当前先进的增强学习方法并达到应用于关键任务的状态。

Nov, 2023

测量强化学习算法的可靠性

本文通过提出一套度量强化学习算法可靠性的评估指标以及相应的统计测试，对可靠性的不同方面进行了量化测量，并对常见算法和环境进行实证研究和分析。

Dec, 2019

决策规则对因果干预的鲁棒性的可证明保证

本文提出了模型的鲁棒性来应对数据偏移，给出了用贝叶斯网络建模，确定参数和因果影响的干预下的最坏情况下性能的算法。实验结果表明该方法在实践网络中得出有用且可解释的范围性结论，从而可以构建出可证明因果性的鲁棒决策制定系统。

May, 2021

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

学习鲁棒的选项

本研究介绍了一种名为 ROPI 的算法，用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外，我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误，实验结果表明，具有粗糙特征表示时使用线性特征的策略迭代具有固有的鲁棒性。另外，我们的实验结果证明，鲁棒性有助于在深度神经网络之上实现的策略迭代，能够推广到比非鲁棒性的策略迭代更广泛的动力学范围。

Feb, 2018

对抗性鲁棒深度强化学习需要重新定义鲁棒性

本文探讨了深度强化学习策略中的鲁棒性问题，发现通过更自然的方式在黑盒设置中可以找到灵敏度方向，且相较于最先进的对抗性训练技术，普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。

Jan, 2023