南非语言低资源语言建模
通过比较零 - shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和 IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到 isiZulu 的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零 - shot 学习,其最佳模型相对于基线英语到 isiZulu 模型的 BLEU 得分提高了 9.9、6.1 和 2.0,同时超过了之前的最佳表现。
Apr, 2021
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
研究了不同数量可用资源的情况下,对三种非洲语言 Hausa,isiXhosa 和 Yoruba 进行 NER 和主题分类的表现趋势,并通过远距离监督和迁移学习等方法,使用少量的标注数据达到与基线相同的性能,揭示了低资源学习中存在的挑战和机会。
Oct, 2020
本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育,并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数,展示了现有 NMT 技术为非洲语言提供的巨大潜力。
Nov, 2018
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
这项研究旨在为南非的 isiZulu 和 Siswati 本土语言创建大规模数据集,通过使用四种分类模型和三种单词嵌入方法,分类结果表明,XGBoost、逻辑回归和 LSTM 的 Word2vec 训练表现最佳。
Jun, 2023
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
研究了利用字根丰富的语言和预训练字向量相结合的方法,来提高低资源非洲语言的自然语言处理精度并在 Xhosa - 英语翻译任务中取得了最佳表现。
Mar, 2020