RLBoost: 使用深度强化学习提升监督学习模型

May, 2023

RLBoost: 使用深度强化学习提升监督学习模型

RLBoost: Boosting Supervised Models using Deep Reinforcement Learning

Eloy Anguiano Batanero, Ángela Fernández Pascual, Álvaro Barbero Jiménez

TL;DR本文介绍了 RLBoost 算法，它使用深度强化学习策略评估数据集并获得一个能够估计任何新数据质量的模型，以提高监督学习模型的最终预测质量。该算法通过多关注策略，考虑了数据的上下文信息，与其他现有算法相比具有更好和更稳定的结果。

Abstract

Data quality or data evaluation is sometimes a task as important as collecting a large volume of data when it comes to generating accurate artificial intelligence models. In fact, being able to evaluate the data

data evaluation artificial intelligence rlboost deep reinforcement learning supervised learning

发现论文，激发创造

应用强化学习进行数据价值评估

提出了一种基于强化学习的数据估值元学习框架，可以同时学习数据价值和目标任务预测模型，能够在不同类型的数据集和应用场景中，显著提高数据价值估计精度，并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。

Sep, 2019

数据加强：基于强化学习引导的条件生成文本数据增强

本文介绍了一种具有强大且易于部署的文本增强框架 Data Boost，该框架采用强化学习引导有条件的生成形式进行数据增强。研究结果表明，Data Boost 可以提高分类器的性能，特别是在数据稀缺场景下。同时，作者还将 Data Boost 与其他六种文本增强方法进行了比较，研究结果显示，Data Boost 的文本增强质量与原始数据相当。

Dec, 2020

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

评估强化学习算法在观测性健康设置中的应用

探讨评估强化学习算法在医疗保健中的安全性的实质，提供了在评估新型患者治疗方式时，如何设计和评估算法的方法，并描述了如何缓解评估过程中存在的潜在问题。

May, 2018

基于深度强化学习的控制的可靠性量化

应用随机噪声提取方法和神经网络结构，在深度强化学习控制中提出一种可靠性量化方法，通过对两个神经网络的输出差异进行评估，改进了 DRL 控制性能和模型切换的问题。

Sep, 2023

使用深度强化学习生成高质量的相关搜索查询建议

利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型，我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进（3％、4.2％和 82％）。

Aug, 2021

粒子物理实验中的数据质量监控与基于人工强化学习

大型粒子物理实验中的数据质量监测（DQM）是一项关键任务，本文提出了一种在时间变化的操作条件下自动化 DQM 过程的人机协同强化学习（RL）的概念验证，并基于 Proximal Policy Optimization（PPO）算法实现了一个原型系统，在简化的合成数据集上进行了验证。我们展示了一个多智能体系统可以被训练用于在数据采集过程中进行连续自动化监测，并仅在相关时请求人类干预，我们证明了随机、无偏的人工分类噪声可以被减少，从而提高了准确率。此外，我们提出了数据增强技术来处理稀缺的数据并加速学习过程。最后，我们讨论了进一步在实际应用中实现该方法所需的步骤，包括定期控制算法输出的协议。

May, 2024

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

不平衡分类的深度强化学习

基于深度强化学习的不平衡数据分类模型，通过将分类问题视为顺序决策过程，使用深度 Q 学习网络解决。在奖励函数和有益的学习环境的指导下，该模型能够更有效地识别少数样本，具有优异的分类性能。

Jan, 2019