安全验证与可解释深度强化学习策略的共同激活图分析

Jan, 2025

安全验证与可解释深度强化学习策略的共同激活图分析

Co-Activation Graph Analysis of Safety-Verified and Explainable Deep Reinforcement Learning Policies

Dennis Gross, Helge Spieker

TL;DR本研究针对深度强化学习策略存在的不安全行为和难以解释的问题，提出了一种结合RL策略模型检查和共同激活图分析的新方法。通过分析神经元激活模式，研究提供了对安全强化学习策略决策过程的理解。研究结果展示了该方法在多种实验中的适用性，具有重要的安全性和解释性价值。

Abstract

Deep Reinforcement Learning (RL) policies can demonstrate unsafe behaviors and are challenging to interpret. To address these challenges, we combine RL policy model checking--a technique for determining whether RL policies exhibit unsafe behaviors--with →