Oct, 2017

银河依赖树库:通过合成新语言获得更多数据

TL;DR我们发布了 Galactic Dependencies 1.0,这是一个大型的合成语言集,旨在为旨在适应不熟悉的语言的 NLP 方法提供训练和开发数据。这些合成树库是通过随机排列名词和 / 或动词的从属语以匹配其他真实语言的词序从真实树库产生的。我们在论文中讨论了合成语言的有用性,逼真度,可解析性,困惑度和多样性,并进行了使用 Galactic Dependencies 的简单演示。我们发现,包括合成源语言会在一定程度上增加源池的多样性,这显著提高了大多数目标语言的结果。