面向规模化的抗噪去重

Oct, 2022

Noise-Robust De-Duplication at Scale

Emily Silcock, Luca D'Amico-Wong, Jinglin Yang, Melissa Dell

TL;DR使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件，122,876 个正重复对的数据集，评估了区分训练的双编码器和组合双编码器和交叉编码器的范围，结果表明神经方法显着优于哈希和 N-gram 重叠，并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。

Abstract

Identifying near duplicates within large, noisy text corpora has a myriad of applications that range from de-duplicating training datasets, reducing privacy risk, and evaluating test set leakage, to identifying r

near duplicates text corpora n-grams de-duplication news wires

发现论文，激发创造

多语种去重策略：应用可扩展相似度搜索与单语和多语嵌入模型

本文介绍了使用先进的 NLP 工具对多语种文本数据进行去重的方法。我们比较了一个包括翻译为英文后嵌入 mpnet 的两步方法和一个多语种嵌入模型 (distiluse)。两步方法在 F1 得分方面表现更好 (82% vs. 60%)，特别是在较少使用的语言上，可以通过利用基于领域知识的专家规则将其提高至 89%。我们还强调了与标记长度限制和计算效率相关的局限性。我们的方法对未来的多语种去重任务提出了改进建议。

Jun, 2024

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

NewsEmbed: 预训练文档表示模型对新闻进行建模

本文提出了一个新颖的方法，使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签，并设计了一个多任务模型 - NewsEmbed，交替使用对比学习和多标签分类来推导通用文档编码器，在多个自然语言理解任务中实现了出色的性能表现。

Jun, 2021

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

针对词汇数据集偏差提高 NLI 模型的鲁棒性

本文探讨了深度学习模型在自然语言推理方面存在数据偏见的现象，并提出了数据级和模型级去偏见的方法，实验表明采用正交性方法可以更好地去偏见且保持高准确率。

May, 2020