对比学习在低资源语言的双语文本挖掘中的应用

Aug, 2022

Bitext Mining for Low-Resource Languages via Contrastive Learning

Weiting Tan, Philipp Koehn

TL;DR本文介绍了一种针对低资源语言挖掘高质量双语数据的方法，即使用多负对比损失进行语言模型微调，可以获得更干净的双语数据，实验证明，在高棉语和普什图语等低资源语言数据挖掘方面，该方法明显优于以往的最先进方法。

Abstract

mining high-quality bitexts for low-resource languages is challenging. This paper shows that sentence representation of language models fi

发现论文，激发创造

通过师生模型训练多种语言的表示，可以在非常低资源的条件下为非洲语言等许多不常见的语言建立有用的文本数据集。

May, 2022

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019

本文提出一种跨媒体对比学习方法，将几种低资源语言与高资源语言相连，通过少量的图像 - 文本对实现神经机器翻译，取得了显著的效果。

Oct, 2022

采用无监督学习方法使用多语言 BERT 创建伪平行语料库以提高机器翻译性能，并在不同任务中获得显著提高。

Oct, 2020

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

通过对印尼四种资源匮乏的本土语言：爪哇语、巽他语、民丹・卡巴乌语和巴厘语的神经机器翻译系统进行全面分析，本研究揭示了适用于资源匮乏语言翻译的实用策略，展示了实现竞争性翻译品质的神经机器翻译系统，对类似背景的研究者提供了有价值的指导。

Nov, 2023

本研究使用神经机器翻译通过回译双语句子对生成句子的解释，并对语料对进行了筛选处理，在此基础上建立通用的释义句子表示模型，结果显示该模型对于很多语言领域其正确率与手动编写的英语释义句子相当。

Jun, 2017