Oct, 2022

面向规模化的抗噪去重

TL;DR使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。