尼日利亚派金语的低资源跨语言自适应训练
该研究致力于使用自然语言生成技术,通过建立一个能够根据结构化数据自动生成皮钦英语描述的系统,填补皮钦英语机器翻译系统和相关自然语言处理数据集的空缺。通过训练以英文为目标语的数据文本生成系统,然后采用无监督的神经机器翻译技术和自我训练等方法,我们在 Pidgin-to-English 跨语言对齐方面取得了进展。结果表明,虽然还远未达到实际使用的水平,但基于中心轴和自我训练技术可以提高皮钦文本的流畅性和相关性。
Mar, 2020
本文介绍了针对西非洋泾浜英语最常用的变体进行的第一项自然语言处理工作,提供了标准语料库、跨语言嵌入和无监督神经机器翻译模型等三个贡献,有效地降低了未来 NLP 工作的准入门槛。
Dec, 2019
本文通过比较将尼日利亚皮金语(Nigerian Pidgin)数据翻译成英语并使用资源丰富的 Implicit Discourse Relation Classification(IDRC)工具和后向投影标签,以及创建一个皮金语的合成语料库并训练本地分类器的方法,针对隐式言论关系分类(IDRC)问题,演示了使用后一种方法训练出了比基线模型在 4 分类和 11 分类中分别高出 13.27% 和 33.98% 的 f1 分数。
Jun, 2024
本文介绍了针对非洲语言首次提供的高质量对话数据集,并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模,利用重叠度进行效果分析,同时通过人类评估方法验证其有效性,发现深度单语模型可以学习一些泛化跨语言的抽象,人类得分最高的是奈及利亚皮钦英语。
Apr, 2022
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
本研究采用跨语言后训练 (XPT) 基于单一低资源语言进行了广泛的评估和探测实验,结果显示 XPT 不仅优于或与训练数据数量更多的单语模型的表现相当,而且转移过程非常高效。
Sep, 2022
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多语言和跨语言设置中可以取得更好的结果。
Apr, 2023