ICLRMar, 2020
Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要
Low resource language dataset creation, curation and classification: Setswana and Sepedi -- Extended Abstract
Vukosi Marivate, Tshephisho Sefara, Vongani Chabalala, Keamogetswe Makhaya, Tumisho Mokgonyane...
TL;DR研究了自然语言处理技术在低资源语言中的应用,提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型,并探索了一种适合低资源语言的数据增强方法以提高分类器性能。