HELFI：一种带有跨语言形态素对齐的希伯来语 - 希腊语 - 芬兰语平行圣经语料库

Mar, 2020

HELFI：一种带有跨语言形态素对齐的希伯来语 - 希腊语 - 芬兰语平行圣经语料库

HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual Morpheme Alignment

Anssi Yli-Jyrä, Josi Purhonen, Matti Liljeqvist, Arto Antturi, Pekka Nieminen...

TL;DR本文介绍了一个包含源文本、翻译、词汇分析和跨语言形态素对齐的数据集，它是通过使用免费的文本版本和标注来重建一个人工构建的位对位语料库的。

Abstract

Twenty-five years ago, morphologically aligned Hebrew-Finnish and Greek-Finnish bitexts (texts accompanied by a translation) were constructed manually in order to create an analytical concordance (Luoto et al., 1997) for a Finnish Bible translation. The creators of the →

bitexts alignment morphological analyses cross-lingual dataset

发现论文，激发创造

计算机辅助模拟九世纪《教会福音书》双语词汇索引

该研究讨论中世纪翻译的双语词典发展，针对源语言和目标语言的不对称性以及原始和翻译文本不同的来源，提出了一种解决方法，并以保加利亚语作为案例进行研究。

Oct, 2022

一个大规模的全文科学文章平行语料库

本文提出利用 Scielo 数据库建立了一个包含英语、葡萄牙语和西班牙语的多语种平行语料库，使用 Hunalign 算法对句子进行自动对齐，并用 Moses 对每种语言对进行了翻译，证明该语料库在科学文章中的机器翻译方面表现优异，同时还提供了包含元数据的 TMX 格式免费使用。

May, 2019

共享嵌入空间中跨语言性的大规模多语言分析

本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素，并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析，结果表明，词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。

Sep, 2021

ByteT5 在代表性较弱的语言的《圣经》文本多语言翻译中的效果

本研究提出了一种基于 ByteT5 的多语言翻译模型，旨在将圣经翻译成少数语言。通过使用约翰・霍普金斯大学圣经语料库进行训练，我们使模型能够捕捉基于字符和形态丰富的语言的复杂细微差别。我们的结果通过 BLEU 分数和样本翻译进行衡量，表明该模型可以提高对神圣文本的可访问性。它有效地处理了独特的圣经词汇和结构，从而弥合了语言分歧。本研究还讨论了模型的局限性，并提出了未来增强的途径，重点是在跨语言界限上扩大对神圣文学的获取。

May, 2024

eBible 语料库：为低资源语言的圣经翻译提供数据和模型基准

使用 eBible 语料库作为基准数据集，引入神经机器翻译模型性能基准，并考虑了多种与圣经翻译领域相关的问题，最终建立了一个适用于低资源语言的模型基准。

Apr, 2023

翻译等效性手动标注：Blinker 项目

用双语标注员标注了 16,000 个现代法语和现代英语圣经版本之间大致相应的单词，以便用于开发和测试翻译词典和统计翻译模型的标准数据集，并可以用于跨语言词汇表征模式的研究和单语词义消歧方法的研究。

May, 1998

利用封闭访问的多语言嵌入进行低资源语言的自动句子对齐

我们提出了一个简单而定性的平行句子对齐算法，利用闭源 Cohere 多语言嵌入，通过与 MAFAND-MT 数据集训练翻译模型，在 FLORES 和 MAFAND-MT 上分别实现了 $94.96$ 和 $54.83$ 的 f1 分数，相较于 LASER，BLEU 分数提升了超过 5 个单位。

Nov, 2023

僧伽罗语 - 英语平行词典数据集

为了解决低资源语言缺乏人工标注的问题，本研究提出了三个用于英语和僧伽罗语自然语言处理任务的平行英 - 僧伽罗词典数据集，并介绍了数据集创建流程和验证数据集质量的实验结果。

Aug, 2023

使用圣经评估散文风格转移

该论文通过语体转换任务，给定目标散文语体，提出了一个系统，生成样式改变但保留输入文本意义的输出，介绍了一种高质量的，对齐的，有样式差异的文本源，以圣经不同版本提供了标准化的训练，开发和测试数据集并报告了评价指标 BLEU 和 PINC, 本任务数据集无与伦比，可用于其他自然语言任务.

Nov, 2017

多语句向量的自适应双语对准

本文介绍了一种自适应双文本对齐系统 AIlign，它利用句子嵌入提取可靠的锚点来引导对齐路径，即使对于平行性不完整且不严格单调的文本也能够实现对齐。在多个数据集上的实验中，我们表明 AIlign 以准线性的复杂度实现了与现有技术水平等效的结果。此外，与 Vecalign 或 Bertalign 等最近的系统不同，AIlign 能够处理仅在局部满足平行性和单调性属性的文本。

Mar, 2024