Feb, 2024

多语言 BERT 对鄂图曼土耳其语的依赖注释

TL;DR使用预先训练的大型语言模型进行注释方法的研究,针对奥斯曼土耳其语第一个依赖树库。实验结果表明,通过迭代使用多语言 BERT 解析模型进行伪标注数据,手动纠正伪注释以及使用纠正的注释对解析模型进行微调,我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分,将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性,从而实现奥斯曼土耳其语文档的自动化分析。