一种深度强化学习方法用于罕见事件估计

Nov, 2022

一种深度强化学习方法用于罕见事件估计

A Deep Reinforcement Learning Approach to Rare Event Estimation

Anthony Corso, Kyu-Young Kim, Shubh Gupta, Grace Gao, Mykel J. Kochenderfer

TL;DR本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Abstract

An important step in the design of autonomous systems is to evaluate the probability that a failure will occur. In safety-critical domains, the failure probability is extremely small so that the evaluation of a policy through Monte Carlo sampling is inefficient. →

autonomous systems failure probability adaptive importance sampling sequential decision making systems policy gradient

发现论文，激发创造

使用神经网络偏差势加速稀有事件采样

该研究论文介绍了一种将重要性抽样与深度神经网络相结合的实用方法，提高了稀有事件的采样效率，并在计算物理学和材料科学领域对稀有事件进行了研究和比较。

Jan, 2024

基于扩散的故障采样技术对于网络物理系统

在高维领域中验证安全关键的自主系统（如机器人）是一个重大挑战。我们提出使用条件降噪扩散模型对故障分布进行采样，并经验证在高维机器人验证任务中相比现有的黑盒技术，能够提高采样效率和模态覆盖。

Jun, 2024

神经桥抽样用于评估安全关键自主系统

本文提出了一种基于概率方法的安全性评估模拟方法，能够快速地对危险事件进行探测和评估，并证明了方法在统计和计算效率方面的优越性，最后在多种场景下进行了测试，证明了该方法对于开发和测试安全关键自主系统的敏感性分析和模型比较的重要性。

Aug, 2020

自适应采样与重要性采样的高效梯度估计

通过提出的自适应方法和重要性采样方法，在机器学习框架中有效地整合了重要性函数，并仅通过输出层的损失梯度提出了一个简化的重要性函数，以实现在分类和回归任务中更好的收敛性和最小的计算开销。

Nov, 2023

基于状态重要性采样的低方差离线评估

该论文介绍了一种名为 SIS 的基于状态的重要性采样方法，用于解决强化学习中 target policy 的评估问题，并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明，与传统的重要性采样、逐决策重要性采样和增量重要性采样相比，SIS 具有更小的方差和更高的精度。

Dec, 2022

基于流模型的稀有事件模拟生成模型

使用 Normalizing Flow 生成模型进行条件概率抽样配合 Coupling Flows 和 Importance Sampling，可以在高维及罕见事件的环境下实现高效的采样和估计。

May, 2023

边缘化重要性采样用于离环境策略评估

基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Sep, 2023

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

条件重要性采样用于离线学习

本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架，探索了其应用于算法设计的新视角，并证实了它的理论意义及其派生算法。

Oct, 2019

通过罕见事件模拟实现可扩展的自动驾驶汽车端到端测试

开发了一种模拟框架，使用深度学习感知和控制算法来测试现代自动驾驶系统，通过自适应重要性采样方法来估计基于标准交通行为的意外概率，相对于蒙特卡洛抽样，可以提速 2-20 倍，并且比真实道路测试快 10-300 倍（P 为处理器数量）。

Oct, 2018