Jul, 2023

基于主动学习的预训练数据去重模型

TL;DR在大数据时代,数据质量问题变得越来越突出。我们提出了一种基于主动学习的预训练去重模型,该模型是首个将主动学习应用于语义级别去重问题的工作。实验结果表明,我们的模型在去重数据识别方面优于之前的最先进技术,基准数据集上的召回率得到了 28% 的提升。