May, 2023

使用代理模型测试深度强化学习代理

TL;DR使用基于搜索的方法的 Indago 工具,通过在深度强化学习中训练分类器来预测特定环境配置下机器学习代理的故障情况,以此作为适应度函数来生成更多故障环境配置,实验结果表明,此方法比现有技术多发现 50%的深度强化学习代理的故障