Nov, 2022
一种深度强化学习方法用于罕见事件估计
A Deep Reinforcement Learning Approach to Rare Event Estimation
Anthony Corso, Kyu-Young Kim, Shubh Gupta, Grace Gao, Mykel J. Kochenderfer
TL;DR本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法,以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化,用于减少精度方面的误差和处理多峰性提议分布的问题,并将多重重要性采样应用于多种基线以显示准确性改进。