Mar, 2023

通过语义去重实现大规模数据高效学习

TL;DR使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup,可以在保留性能和提高超出分布的模型表现的同时,删除数据中约 50%的语义重复项。