嘈杂的并行数据对齐
本研究旨在分析 OCR 噪声对多语种语言模型的影响,并发现 OCR 噪声会对语言模型造成显著影响,特别是在少量语料库的情况下,简单的语言模型如 PPMI 和 Word2Vec 可以更好地应对 OCR 噪声。
Jan, 2022
针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况,本文提出了一种从不可读的文本数据中提取文本的方法,具体而言,在三种极度濒危的语言中创建了一个基准数据集,并针对数据不足的 OCR 研究有效性做了系统分析,开发了一种针对数据不足的 OCR 后校正方法,平均可将识别错误率降低 34%。
Nov, 2020
本研究提出了一种新的训练框架,通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能,实验表明该框架大大提高了预训练模型的鲁棒性,可以在实际场景下极大地促进 NLP 模型的应用。
Jul, 2021
本文在处理嘈杂的文本数据或 OCR 输出时,提出了改进的噪声感知训练方法,并通过一种从无误文本翻译为有误文本的序列对序列模型,提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练,针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入,可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术,为未来的鲁棒性研究提供了帮助,我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。
May, 2021
研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试,并使用真实和合成数据进行了丰富,以评估最先进的 OCR 系统,分析最常见的错误。表明 OCR 单语数据是一种有价值的资源,可以在回译中提高机器翻译模型的性能。通过消融研究来调查 OCR 误差如何影响机器翻译性能,并确定用于机器翻译有用的单语数据的最小 OCR 质量水平是多少。
Feb, 2022
该研究介绍了 PARADISE 方法,通过将多语言字典和平行语料库用于训练模型的噪声序列中,取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。
Aug, 2021
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
提出一种预处理方法 (Robust Contrastive Pretraining),将数据扩增和对比损失项结合,以提高多语言分类任务中现有预训练模型 (Robust Contrative Pretraining,RCP) 的稳健性,并在两个句子水平和两个序列标注多语言分类任务中取得了显著提高。
Oct, 2022
本文提出了一种新的对比对齐目标函数,主要应用于 OPUS 数据集,分析了单语和多语种上的效果,证明此方法优于以前的工作,但整体上,这些方法无法通过更强大的评估框架来提高性能,而更好的基础模型可以获得更好的性能。
Oct, 2020