本文介绍了针对西非洋泾浜英语最常用的变体进行的第一项自然语言处理工作,提供了标准语料库、跨语言嵌入和无监督神经机器翻译模型等三个贡献,有效地降低了未来 NLP 工作的准入门槛。
Dec, 2019
该研究致力于使用自然语言生成技术,通过建立一个能够根据结构化数据自动生成皮钦英语描述的系统,填补皮钦英语机器翻译系统和相关自然语言处理数据集的空缺。通过训练以英文为目标语的数据文本生成系统,然后采用无监督的神经机器翻译技术和自我训练等方法,我们在Pidgin-to-English跨语言对齐方面取得了进展。结果表明,虽然还远未达到实际使用的水平,但基于中心轴和自我训练技术可以提高皮钦文本的流畅性和相关性。
Mar, 2020
研究实现了监督和无监督神经机器翻译模型来翻译英语和尼日利亚皮钦语,比较了不同的分词方法,在英语和尼日利亚皮钦语之间建立了良好的翻译基础。
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的N元模型、前馈神经网络、循环神经网络和Transformers网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
本文通过多语言自适应微调方法,改进了前馈神经网络(AfriBERTa和XLM-R)模型,使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言,在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性,且需要的磁盘空间明显少于单个语言的自适应微调方法。同时,本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。
Apr, 2022
本研究尝试将预训练的多语言wav2vec 2.0神经模型应用于研究极度濒危的阿伊努语,通过多语言微调和预训练对模型进行改进,结果显示继续预训练是适应新语言的最有效方法,并且利用类似语言的数据进行微调可以显著减少错误率。
Jan, 2023
通过对非洲语言NLP的低成本实验,我们评估了语言适配器的效果,并发现它们可以在仅使用免费计算资源的情况下与计算资源密集型的大规模预训练语言模型相媲美,从而打开了进一步实验和探索的可能。
Mar, 2023
试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处,在情感分析方面效果提升了2.1分,英文翻译方面效果提升了1.4 BLEU分。
Apr, 2024
对于低资源语言,通过针对性的多语言训练,依照乌拉尔语系为案例进行调整,通过实验证明适应性的词汇大小对于低资源语言的影响相对较小,低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微,从而为特定语境中的语言适应性提供了新的最佳实践。
May, 2024
本研究解决了高资源多语言模型在低资源语言上效果不佳的问题,比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现,AfriBERT在经过微调后实现了88.3%的跨语言准确率,显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。
Sep, 2024