- ACL多语言到英语机器翻译工具、数据和预训练模型
本文提出三种工具:MTData、NLCodec 和 RTG,设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型,支持语言种类很多,且模型容易下载和使用。
- 印度德拉维达语系自监督机器翻译
本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用,并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据,建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可 - 一个阿姆哈拉语新闻文本分类数据集
研究介绍了一个由超过 50,000 篇新闻文章组成、分为 6 类的阿姆哈拉文本分类数据集,并提供基准性能以促进相关研究和实验的实施。
- ACLCLAR: 用于语义角色标注的跨语言参数正则化器
本研究提出一种名为 CLAR 的新方法,通过跨语言较为相似的语义角色信息来提升语义角色标注(SRL)的效果,且实验证明 CLAR 相比单语言和多语言基线模型有更好的表现,尤其适用于低语言资源场景。
- 给阿姆哈拉语引入各种语义模型:多项任务和数据集上的实验和评估
本文介绍了针对阿姆哈拉语的不同语义模型训练方法,并将其用于自然语言处理任务。经实验,我们发现基于 RoBERTA 的语境嵌入法的新模型表现优于旧的预训练的多语言模型和基于 word2Vec 模型的词嵌入法的新模型。
- 针对低资源语言的基于锚点的双语词嵌入
提出了一种新的构建双语词向量嵌入的方法,该方法利用高资源源语言的向量空间作为训练低资源目标语言嵌入空间的起点,并通过使用源向量作为锚点,在训练过程中自动对齐向量空间,结果表明该方法不仅提高了双语词向量的质量和双语词汇词典归纳的性能,而且提高 - 可扩展的跨语言预训练和微调技术实现多语言翻译
本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型,并且证明在不失性能的前提下,预训练模型可以扩展到更多语言。此外,作者基于 ML50 数据集表明,多语言微调相较于其他训练方式有显著提升。
- BanFakeNews: 用于检测孟加拉语假新闻的数据集
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
- 应用规则增强的序列标注提取事件的方法
本文针对低资源语言中事件提取的难点,使用收集自新闻网站的新数据集(InDEE-2019)进行深度学习模型的规则扩充和标签尾部的规则创建,通过实验验证了各种方法的有效性。