Nov, 2022
百万级跨语言条款级联结构转换器
Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology
TL;DR本文介绍了我们在MRL 2022胜出的系统,主要探索了基于transformers的两种方法:从头训练模型结合数据增强以及在多语言词形态任务中进行前缀调校的迁移学习,其中数据增强显著提高了大多数语言的词形和重构任务的性能,而前缀调校在预先训练的mGPT模型上对低数据量和多语言环境中的分析任务进行了适应,结果显示transformers与数据增强在词形和重构任务方面取得了最佳结果,而在分析任务方面,基于mGPT的前缀调校取得了最高结果。