Feb, 2022

加泰罗尼亚文的序列到序列资源

TL;DR本文介绍了针对加泰罗尼亚语这种中等资源语言的序列到序列(sequence-to-sequence)语言资源,旨在实现新闻摘要和机器翻译(MT)两个任务。我们在新闻领域中介绍了两个新的抽象摘要数据集,并引入了一组新的加泰罗尼亚 - 英文平行语料库及三个不同的测试集。最后,我们评估了这些数据与最先进的模型的竞争情况,并使用新创建的加泰罗尼亚 BART 为这些任务开发了基线。我们以开放许可发布了这项工作的结果,以鼓励在加泰罗尼亚语的语言技术开发方面的进一步发展。