Dec, 2023
多语言冒犯性语言识别的文本对文本模型
A Text-to-Text Model for Multilingual Offensive Language Identification
TL;DR社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器-解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID和CCTK)上训练。研究结果表明,预训练的T5模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。