嘈杂的并行数据对齐

ACLJan, 2023

Noisy Parallel Data Alignment

Ruoyu Xie, Antonios Anastasopoulos

TL;DR本研究旨在研究现有的词级联模型在嘈杂环境下的对齐问题，并通过噪声模拟和结构偏置的方法提高模型的稳健性，从而显著降低基于神经网络的对齐模型的对齐误差率。

Abstract

An ongoing challenge in current natural language processing is how its major advancements tend to disproportionately favor resource-rich languages, leaving a significant number of under-resourced languages behind

natural language processing under-resourced languages ocr word alignment models neural-based alignment model

发现论文，激发创造

OCR 噪声对语言模型的影响评估

本研究旨在分析 OCR 噪声对多语种语言模型的影响，并发现 OCR 噪声会对语言模型造成显著影响，特别是在少量语料库的情况下，简单的语言模型如 PPMI 和 Word2Vec 可以更好地应对 OCR 噪声。

Jan, 2022

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

多源噪声模拟与难例挖掘用于文本分类的鲁棒性学习

本研究提出了一种新的训练框架，通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能，实验表明该框架大大提高了预训练模型的鲁棒性，可以在实际场景下极大地促进 NLP 模型的应用。

Jul, 2021

基于实证误差建模的神经序列标注方法提升噪声下鲁棒性能

本文在处理嘈杂的文本数据或 OCR 输出时，提出了改进的噪声感知训练方法，并通过一种从无误文本翻译为有误文本的序列对序列模型，提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练，针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入，可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术，为未来的鲁棒性研究提供了帮助，我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。

May, 2021

跨模态对齐的低资源神经机器翻译

本文提出一种跨媒体对比学习方法，将几种低资源语言与高资源语言相连，通过少量的图像 - 文本对实现神经机器翻译，取得了显著的效果。

Oct, 2022

OCR 提升低资源语言机器翻译

研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试，并使用真实和合成数据进行了丰富，以评估最先进的 OCR 系统，分析最常见的错误。表明 OCR 单语数据是一种有价值的资源，可以在回译中提高机器翻译模型的性能。通过消融研究来调查 OCR 误差如何影响机器翻译性能，并确定用于机器翻译有用的单语数据的最小 OCR 质量水平是多少。

Feb, 2022

PARADISE：利用平行数据进行多语言序列到序列预训练

该研究介绍了 PARADISE 方法，通过将多语言字典和平行语料库用于训练模型的噪声序列中，取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。

Aug, 2021

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

跨语言零样本条件下多语言语言模型对现实世界噪声的鲁棒化：基于鲁棒对比度预训练的方法

提出一种预处理方法 (Robust Contrastive Pretraining)，将数据扩增和对比损失项结合，以提高多语言分类任务中现有预训练模型 (Robust Contrative Pretraining，RCP) 的稳健性，并在两个句子水平和两个序列标注多语言分类任务中取得了显著提高。

Oct, 2022

明确对齐是否能够稳定提高多语言编码器性能？

本文提出了一种新的对比对齐目标函数，主要应用于 OPUS 数据集，分析了单语和多语种上的效果，证明此方法优于以前的工作，但整体上，这些方法无法通过更强大的评估框架来提高性能，而更好的基础模型可以获得更好的性能。

Oct, 2020