应用强化学习进行数据价值评估

Sep, 2019

Data Valuation using Reinforcement Learning

Jinsung Yoon, Sercan O. Arik, Tomas Pfister

TL;DR提出了一种基于强化学习的数据估值元学习框架，可以同时学习数据价值和目标任务预测模型，能够在不同类型的数据集和应用场景中，显著提高数据价值估计精度，并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。

Abstract

Quantifying the value of data is a fundamental problem in machine learning. data valuation has multiple important use cases: (1) building insights about the learning task, (2) →

data valuation machine learning reinforcement learning corrupted sample discovery domain adaptation

发现论文，激发创造

神经动态数据估值

我们提出了一种名为神经动态数据估值（NDDV）的新型数据估值方法，通过最优控制的视角根据数据最优控制状态的敏感性准确地确定数据估值，同时实施数据重新加权策略以捕捉数据点的独特特征，从而确保公平性，并显著提高计算效率。

Apr, 2024

梯度相似性数据评估

通过梯度相似性进行数据估值的方法在识别低质量数据方面表现出良好的效果，并能减少对专业知识和手动干预的需求。

May, 2024

价值驱动的后见之明建模

本文提出了利用表征学习中的先验信息直接进行值函数预测的方法，即结合模型学习和模型自由方法的优势，确定哪些未来轨迹特征提供有用信息，从而为任务提供可操作的预测目标，加速值函数的学习。

Feb, 2020

使用条件扩散模型进行价值函数估计和控制

本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF)，该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型，可以高效地捕获多个控制器的状态访问度量，并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。

Jun, 2023

RLBoost: 使用深度强化学习提升监督学习模型

本文介绍了 RLBoost 算法，它使用深度强化学习策略评估数据集并获得一个能够估计任何新数据质量的模型，以提高监督学习模型的最终预测质量。该算法通过多关注策略，考虑了数据的上下文信息，与其他现有算法相比具有更好和更稳定的结果。

May, 2023

LAVA: 无需预先指定学习算法的数据估值

本文介绍了一种新的数据估值框架，可以在不确定具体学习算法的情况下对数据进行估值，并提出了基于 Wasserstein 距离和敏感性分析的方法来估值，可以检测低质量的数据并在性能方面显著提高。

Apr, 2023

深度品质 - 价值学习（DQV 学习）

本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value（DQV） Learning。通过测试两个经典强化学习问题和四个 Atari 游戏，结果表明，DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快，更好，表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。

Sep, 2018

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

DeRDaVa: 机器学习的删除容忍数据估值

数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关，我们提出了一种数据估值框架 DeRDaVa，并将其推广到 Risk-DeRDaVa，以适应风险厌恶 / 寻求模型所有者的需求，并进行了实证研究。

Dec, 2023

减少方差的深度强化学习奖励估计

该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号，这种方法能够提高算法的稳定性和性能表现，并且应用范围广泛。

May, 2018