Aug, 2020

跨语言迁移技术提升攻击性语言检测:SemEval-2020 第 12 项任务中的 NLPDove

TL;DR本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准 Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言 BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。