应用强化学习进行数据价值评估
我们提出了一种名为神经动态数据估值(NDDV)的新型数据估值方法,通过最优控制的视角根据数据最优控制状态的敏感性准确地确定数据估值,同时实施数据重新加权策略以捕捉数据点的独特特征,从而确保公平性,并显著提高计算效率。
Apr, 2024
本文提出了利用表征学习中的先验信息直接进行值函数预测的方法,即结合模型学习和模型自由方法的优势,确定哪些未来轨迹特征提供有用信息,从而为任务提供可操作的预测目标,加速值函数的学习。
Feb, 2020
本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF),该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型,可以高效地捕获多个控制器的状态访问度量,并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。
Jun, 2023
本文介绍了 RLBoost 算法,它使用深度强化学习策略评估数据集并获得一个能够估计任何新数据质量的模型,以提高监督学习模型的最终预测质量。该算法通过多关注策略,考虑了数据的上下文信息,与其他现有算法相比具有更好和更稳定的结果。
May, 2023
本文介绍了一种新的数据估值框架,可以在不确定具体学习算法的情况下对数据进行估值,并提出了基于 Wasserstein 距离和敏感性分析的方法来估值,可以检测低质量的数据并在性能方面显著提高。
Apr, 2023
本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value(DQV) Learning。通过测试两个经典强化学习问题和四个 Atari 游戏,结果表明,DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快,更好,表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。
Sep, 2018
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关,我们提出了一种数据估值框架 DeRDaVa,并将其推广到 Risk-DeRDaVa,以适应风险厌恶 / 寻求模型所有者的需求,并进行了实证研究。
Dec, 2023