PidginUNMT:从西非皮钦语到英语的无监督神经机器翻译
该研究致力于使用自然语言生成技术,通过建立一个能够根据结构化数据自动生成皮钦英语描述的系统,填补皮钦英语机器翻译系统和相关自然语言处理数据集的空缺。通过训练以英文为目标语的数据文本生成系统,然后采用无监督的神经机器翻译技术和自我训练等方法,我们在 Pidgin-to-English 跨语言对齐方面取得了进展。结果表明,虽然还远未达到实际使用的水平,但基于中心轴和自我训练技术可以提高皮钦文本的流畅性和相关性。
Mar, 2020
本研究针对低资源语言建设有效的口语处理系统提出了一个跨语言自适应训练框架,包括持续和任务自适应训练,以适应基于预训练模型的自然语言处理任务,采用英语预训练语言模型作为英语 - Pidgin 任务的强先验,取得了最高 2.38 的 BLEU 分数,加入正字法数据增强和反向翻译的任务自适应训练对模型性能有显著影响。
Jul, 2023
本文介绍了针对非洲语言首次提供的高质量对话数据集,并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模,利用重叠度进行效果分析,同时通过人类评估方法验证其有效性,发现深度单语模型可以学习一些泛化跨语言的抽象,人类得分最高的是奈及利亚皮钦英语。
Apr, 2022
本文探讨在现代社会中,许多尼日利亚语言已经失去之前的声望和用途,转而使用英语和尼日利亚皮钦语,导致数百万母语为土著语言的人无法公平地获取信息、沟通、医疗、安全和参与政治民生事务等方面存在的不平等。为了减少排斥并促进社会语言和经济赋权,本文探讨使用神经机器翻译技术在尼日利亚南部的 Edoid 语系中的可行性。使用新的 JW300 公共数据集,本文训练和评估了此组中四种常用语言(Ed'o,'Es'an,Urhobo 和 Isoko)的基线翻译模型,并将训练模型、代码和数据集开源以推进未来的 Edoid 语言技术研究。
Mar, 2020
本研究探讨了如何在 Pidgin 语境下理解情感分析,提出了一个 300 词汇表和 14,000 条推文的 Nigerian Pidgin 情感标签数据集,指出了将传统英语情感分析模型直接用于 Nigeria Pidgin 文本的缺陷。
Mar, 2020
本文通过比较将尼日利亚皮金语(Nigerian Pidgin)数据翻译成英语并使用资源丰富的 Implicit Discourse Relation Classification(IDRC)工具和后向投影标签,以及创建一个皮金语的合成语料库并训练本地分类器的方法,针对隐式言论关系分类(IDRC)问题,演示了使用后一种方法训练出了比基线模型在 4 分类和 11 分类中分别高出 13.27% 和 33.98% 的 f1 分数。
Jun, 2024
构建英豪沙机器翻译基线模型,通过采用标准单词级和 BPE 子词级标记方法使用循环和变压器编码 - 解码架构评估模型性能,以改善低资源语言的神经机器翻译问题。
Jun, 2020
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用,并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据,建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可选择相似的辅助语言来实现 UNMT,可以产生较好的效果。
Mar, 2021