ITU 法罗语成对数据集

Jun, 2022

The ITU Faroese Pairs Dataset

Leon Derczynski, Annika Solveig Hedegaard Isfeldt, Signhild Djurhuus

TL;DR本文介绍了 ITU Copenhagen 提供的 Faroese 和 Danish 句子对的数据集，该数据集包含源语言的翻译，目的是为了在这两种语言之间的机器翻译系统中使用。

Abstract

This article documents a dataset of sentence pairs between faroese and danish, produced at ITU Copenhagen. The data covers tranlsation fro

faroese danish dataset machine translation systems training data

发现论文，激发创造

NorQuAD: 挪威问答数据集

本文介绍了 NorQuAD 数据集，这是第一个用于机器阅读理解的挪威问答数据集，包含 4,752 个手动创建的问题和答案对。我们详细介绍了数据收集过程，并陈述了数据集的统计信息。我们还对数据集进行了多语言和挪威单语言语言模型的基准测试，并将它们与人类表现进行了比较。该数据集将免费提供。

May, 2023

跨语言再演绎的对话

报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法，包括收集语言之间紧密匹配的话语对的、数据收集的描述，以及一些相关的观察和思考。此报告面向使用语料库，扩展语料库和设计类似的双语对话数据收集的人。

Nov, 2022

通过近缘语言进行向低资源语言的转移：以法罗语为例的案例研究

通过研究低资源语言法罗语和高资源语言家族之间的语言分类、起源和进化关系，将在多语言语境下的 NLP 应用中常用的 “一刀切”（one-size-fits-all) 的翻译方式转变为提供更高的翻译准确度，同时利用丰富的斯堪的那维亚语言（丹麦语、挪威语、瑞典语和冰岛语）的资源来为 Faroeese 语提供支持，其结果表明可以大幅提高向低资源语言法罗语的翻译性能，并开发了一个新的 web Farosee 语料库，并提供命名实体识别（NER），语义文本相似度（STS）和所有斯堪的那维亚语言训练的新语言模型的数据集。

Apr, 2023

PhoMT: 一个高质量和大规模的越南语 - 英语机器翻译基准数据集

本文介绍了一个高质量、大规模的越南语 - 英语平行数据集，进行了机器翻译的比较实验，结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能，这是第一个大规模的越南语 - 英语机器翻译研究，希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。

Oct, 2021

北欧桩：一个用于语言建模的 1.2TB 北欧数据集

为了推动在诸如北欧语言这样的小语种中开发 LLMs，我们策划了一个高质量的数据集，其中包含所有主要的北日耳曼语言（丹麦语、冰岛语、挪威语和瑞典语），以及一些高质量的英语数据，并详细介绍了我们的数据收集、清理和过滤的过程。

Mar, 2023

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

六种语言的开放字幕释义语料库

介绍了 Opusparcus 这个新的近义词语料库，其中包括六种欧洲语言的训练、开发和测试数据集。这些数据集是从 OpenSubtitles2016 中提取的，可用于计算机辅助语言学习等领域。

Sep, 2018

一份高质量的多语言结构化文档翻译数据集

本文针对结构化文本本地化的研究，提出了一种高质量的多语种数据集，并构建和评估了针对七种目标语言的翻译模型，实验结果表明，使用 XML 标签可以提高翻译精确度。

Jun, 2020

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

联合国平行语料库注释翻译方向

本研究将 UN 协议语料库中的翻译和原始文本区分开来，通过将问题建模为分类问题，可以达到高达 95％的分类准确性。我们通过为不同语言对派生并注释翻译方向的平行语料库，然后使用各种特征提取方法对数据进行分类。我们比较了不同的方法以及在不同语言中区分翻译和原始文本的能力。注释的语料库是公开可用的。

May, 2018