本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017
利用生成对抗网络和无监督多语言嵌入,结合多源语言训练数据的多语言转移学习方法,在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。
Oct, 2018
该论文探讨了如何自动选择最佳转移语言作为排名问题,建立模型考虑诸如语言相似性,类型学特性,词汇重叠或可用数据大小等因素以执行这种预测。在代表性NLP任务的实验中,我们证明了我们的模型比单一特征的单独考虑的基准线更好地预测良好的转移语言,并了解了哪些特征对每种不同的NLP任务是最有信息量的,这可能会为未来的专家选择提供帮助。
May, 2019
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019
通过比较零-shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到isiZulu的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零-shot 学习,其最佳模型相对于基线英语到isiZulu模型的 BLEU得分提高了9.9、6.1和2.0,同时超过了之前的最佳表现。
Apr, 2021
本文研究非洲语言在自然语言处理上的挑战,针对命名实体识别任务,创造了包含20种非洲语言的最大人工标注数据集,研究了现有跨语言传递方法的表现,并发现选择最佳传递语言相较使用英语,可以提高零-shot F1分数14点。
Oct, 2022
本文在分析预训练mT5模型对90种语言对之间交叉语言联系学习时,发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性,可望提高零样本性能表现。
Dec, 2022
研究使用语言相似性来选择最佳的迁移语言,从而提高在情感分析、命名实体识别和依赖解析等不同自然语言处理任务中的跨语言迁移性能。
Jan, 2023
多语言语言模型(MLLMs)展现了强大的跨语言转移能力,本研究旨在调查源语言应用于目标语言的效果,特别是在扰动输入测试集的情况下,发现命名实体识别的跨语言转移主要取决于实体块的重叠,研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。
Mar, 2024
本研究解决了高资源多语言模型在低资源语言上效果不佳的问题,比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现,AfriBERT在经过微调后实现了88.3%的跨语言准确率,显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。
Sep, 2024