基于搜索的强化学习测试

IJCAIMay, 2022

Search-Based Testing of Reinforcement Learning

Martin Tappler, Filip Cano Córdoba, Bernhard K. Aichernig, Bettina Könighofer

TL;DR研究开发了基于搜索的深度强化学习测试框架，用于评估深度强化学习代理的性能和安全性，其中包括利用搜索算法进行参考跟踪的安全测试和创建多样化的跟踪以评估代理的总体性能。

Abstract

Evaluation of deep reinforcement learning (RL) is inherently challenging. Especially the opaqueness of learned policies and the stochastic nature of both agents and environments make testing the behavior of deep RL agents difficult. We present a →

deep reinforcement learning search-based testing framework safety testing performance testing fuzz testing

发现论文，激发创造

使用搜索方法的深度强化学习智能体测试方法

利用遗传算法和机器学习模型，提出了 STARLA，一种搜索 DRL 代理策略的方法。我们将其应用于广泛使用的 Deep-Q-Learning 代理，表明它比随机测试更能发现与代理策略有关的故障，并研究了如何提取描述 DRL 代理故障情况的规则。

Jun, 2022

使用代理模型测试深度强化学习代理

使用基于搜索的方法的 Indago 工具，通过在深度强化学习中训练分类器来预测特定环境配置下机器学习代理的故障情况，以此作为适应度函数来生成更多故障环境配置，实验结果表明，此方法比现有技术多发现 50％的深度强化学习代理的故障

May, 2023

强化学习用于自动驾驶系统在线测试的复制与扩展研究

复制和扩展了前一次经验研究，研究表明引入强化学习与多目标搜索相结合的方式，在深度神经网络系统的在线测试中优于其他技术（随机搜索和多目标搜索）。新的 RL 代理能够收敛到一个有效策略，明显优于随机测试，并且揭示了进一步探索如何充分利用 RL 进行在线 ADS 测试的可能改进方向。

Mar, 2024

深度强化学习控制的机器人和自主系统的可达性验证的可靠性评估

本文提出了一个用于 DRL 控制的机器人和自主系统的可靠性评估框架，并利用形式可靠性分析生成的验证证据，验证了其安全性。

Oct, 2022

使用深度强化学习增强自动游戏测试

本研究采用深度强化学习（DRL）技术来实现自学习机制的游戏测试框架，可提高测试覆盖率，发现并解决游戏内的漏洞及其他问题，特别适用于第一人称射击类型的游戏。

Mar, 2021

评估基于模型无关的强化学习在安全关键任务中的应用

本研究提出了一种新的安全强化学习技术，即 Unrolling Safety Layer 方法，它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件，该技术在学习零成本回报政策上具有良好的鲁棒性和适用性，并且实现了与算法评估的有机结合。

Dec, 2022

超越价值：基于规划的强化学习推理测试清单

本文介绍了如何使用 CheckList 方法对在线树搜索策略的强化学习代理进行测试，以更好的评估其未来性能并帮助开发人员发现代理的推理缺陷，所述方法通过用户界面和通用查询规则机制实现。研究结果表明，该方法有效地帮助用户发现代理推理中的未知缺陷，同时可帮助改进未来的应用及相关开发。

Jun, 2022

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

有界预知下的 Atari 游戏防护

针对深度强化学习在安全关键领域中的应用，本研究提出了一种确保 Atari 电子游戏中 DRL 智能体安全的方法，仅需使用仿真器即可进行分析，此方法可有效提高智能体的安全性。

Jan, 2021

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020