May, 2024

粒子物理实验中的数据质量监控与基于人工强化学习

TL;DR大型粒子物理实验中的数据质量监测(DQM)是一项关键任务,本文提出了一种在时间变化的操作条件下自动化 DQM 过程的人机协同强化学习(RL)的概念验证,并基于 Proximal Policy Optimization(PPO)算法实现了一个原型系统,在简化的合成数据集上进行了验证。我们展示了一个多智能体系统可以被训练用于在数据采集过程中进行连续自动化监测,并仅在相关时请求人类干预,我们证明了随机、无偏的人工分类噪声可以被减少,从而提高了准确率。此外,我们提出了数据增强技术来处理稀缺的数据并加速学习过程。最后,我们讨论了进一步在实际应用中实现该方法所需的步骤,包括定期控制算法输出的协议。