Jun, 2022

超越价值:基于规划的强化学习推理测试清单

TL;DR本文介绍了如何使用CheckList方法对在线树搜索策略的强化学习代理进行测试,以更好的评估其未来性能并帮助开发人员发现代理的推理缺陷,所述方法通过用户界面和通用查询规则机制实现。研究结果表明,该方法有效地帮助用户发现代理推理中的未知缺陷,同时可帮助改进未来的应用及相关开发。