使用多语言句子嵌入进行基于边际的平行语料库挖掘
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。
Jul, 2018
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 / 日语),我们的表现非常出色。
Nov, 2019
本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验,能在 UN 文档级别检索任务中取得 97% 以上的 P@1。最后,我们在 BUCC 挖掘任务上评估了所提出的模型,利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。
Feb, 2019
展示了一种利用公开的课程资料进行平行语料挖掘的框架,通过动态规划的句子对齐算法和机器翻译相似度,达到了 96% 的句子对齐 F1 分数,并通过机器翻译实验证明,挖掘到的语料能提高课程讲稿翻译的质量。
Nov, 2023
通过使用网页爬取方法和机器翻译系统,本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法,并且能够提取噪音干扰较小的平行句子。
Sep, 2015
使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子,共提取了 1.35 亿个平行句子,并且在 1886 种语言对上训练神经机器翻译基线系统,取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练,而不需要通过英语来进行桥接。
Jul, 2019
本研究使用 LASER 工具包,基于编码 - 解码结构训练平行语料库,直接对多语言句子进行表征和过滤,通过与其他方法对比结果表明其在低资源及无资源情况下具有良好效果。
Jun, 2019