Apr, 2022

剔除重叠词:再探希望言论检测中的数据不平衡

TL;DR本研究利用聚焦损失、数据增强和预处理策略等方式,解决了积极表达检测中数据不平衡的问题,并通过详细研究发现,将聚焦损失应用于多语言 BERT 的训练过程中,弥补了类别不平衡的影响,提高了整体的 F1-Macro 值,而基于上下文和反向翻译的词语增强和基于预处理的去重复方法也分别使结果比基线模型提升了 0.10 和 0.28。本研究总结了每种方法的性能及实现过程,适用于在真实世界下解决希望言论检测中数据不平衡的问题。