Jun, 2024
深度强化学习的验证引导屏蔽
Verification-Guided Shielding for Deep Reinforcement Learning
Davide Corsi, Guy Amir, Andoni Rodriguez, Cesar Sanchez, Guy Katz...
TL;DR通过整合形式验证和概率验证工具,将输入域划分为安全和不安全区域,通过聚类和符号表示过程对不安全区域进行压缩,从而在(潜在的)不安全区域高效地临时激活防护,显著减少运行时开销并保持形式安全保证。