粒子物理实验中的数据质量监控与基于人工强化学习

May, 2024

粒子物理实验中的数据质量监控与基于人工强化学习

Human-in-the-loop Reinforcement Learning for Data Quality Monitoring in Particle Physics Experiments

Olivia Jullian Parra, Julián García Pardiñas, Lorenzo Del Pianta Pérez, Maximilian Janisch, Suzanne Klaver...

TL;DR大型粒子物理实验中的数据质量监测（DQM）是一项关键任务，本文提出了一种在时间变化的操作条件下自动化 DQM 过程的人机协同强化学习（RL）的概念验证，并基于 Proximal Policy Optimization（PPO）算法实现了一个原型系统，在简化的合成数据集上进行了验证。我们展示了一个多智能体系统可以被训练用于在数据采集过程中进行连续自动化监测，并仅在相关时请求人类干预，我们证明了随机、无偏的人工分类噪声可以被减少，从而提高了准确率。此外，我们提出了数据增强技术来处理稀缺的数据并加速学习过程。最后，我们讨论了进一步在实际应用中实现该方法所需的步骤，包括定期控制算法输出的协议。

Abstract

data quality monitoring (DQM) is a crucial task in large particle physics experiments, since detector malfunctioning can compromise the data. DQM is currently performed by human shifters, which is costly and results in limited accuracy. In this work, we provide a proof-of-concept for a

data quality monitoring human-in-the-loop reinforcement learning proximal policy optimization multi-agent system data augmentation techniques

发现论文，激发创造

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Oct, 2018

通过强化学习自动重新校准量子设备

通过使用强化学习技术和环境噪声模型，我们研究了量子设备参数的连续校准的无模型控制循环，并以肯尼迪接收器为基础的远距离量子通信协议的数值模拟应用作为示例。

Apr, 2024

PDRL：基于多智能体强化学习的预测性监控

提出了一种新颖且通用的预测深度强化学习（PDRL）系统，用于监测复杂环境中的未来状态，并在时间序列预测过程中取得了最先进的性能。

Sep, 2023

RLBoost: 使用深度强化学习提升监督学习模型

本文介绍了 RLBoost 算法，它使用深度强化学习策略评估数据集并获得一个能够估计任何新数据质量的模型，以提高监督学习模型的最终预测质量。该算法通过多关注策略，考虑了数据的上下文信息，与其他现有算法相比具有更好和更稳定的结果。

May, 2023

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

基于多智能体深度强化学习的 AI 驱动病人监测

通过使用多智能体深度强化学习 (DRL) 的人工智能驱动的患者监控框架，我们提出了一个有效的患者监测系统，在处理复杂、动态的环境和波动的生命体征方面具有很大优势。我们的实验结果证明了该框架在监测患者生命体征方面的准确性优于传统模型，并通过超参数优化来提升学习过程，使其能够适应多样的患者情况和实时做出决策。

Sep, 2023

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

通过人类反馈实现质量多样性

Quality Diversity through Human Feedback (QDHF) employs human feedback to expand the applicability of Quality Diversity (QD) algorithms, enhancing diversity in optimization for complex tasks.

Oct, 2023

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022