Dec, 2019
低资源语言中的大规模与策划嵌入比较:以约鲁巴语和特威语为例
Massive vs. Curated Word Embeddings for Low-Resourced Languages. The Case of Yorùbá and Twi
Jesujoba O. Alabi, Kwabena Amponsah-Kaakyire, David I. Adelani, Cristina España-Bonet
TL;DR本论文针对两种非洲语言 —— 约鲁巴语和特威语,通过比较由无标注文本学习的词向量和有标注文本学习的词向量,以及不同深度学习模型的表现,分析公开语料库中的噪声,并收集了高质量的语料库数据和相应的测试套件,最终提供了这两种语言的语料库、嵌入向量和测试套件。