Mar, 2020

通过将英语数据作为转换点和自我训练生成未加监督的洋泾浜文本

TL;DR该研究致力于使用自然语言生成技术,通过建立一个能够根据结构化数据自动生成皮钦英语描述的系统,填补皮钦英语机器翻译系统和相关自然语言处理数据集的空缺。通过训练以英文为目标语的数据文本生成系统,然后采用无监督的神经机器翻译技术和自我训练等方法,我们在Pidgin-to-English跨语言对齐方面取得了进展。结果表明,虽然还远未达到实际使用的水平,但基于中心轴和自我训练技术可以提高皮钦文本的流畅性和相关性。