Nov, 2022

一种深度强化学习方法用于罕见事件估计

TL;DR本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法,以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化,用于减少精度方面的误差和处理多峰性提议分布的问题,并将多重重要性采样应用于多种基线以显示准确性改进。