Nov, 2022

Transformer 基于的代码混合卡纳达语 - 英语文本字级语言识别模型

TL;DR本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述,其中提出了在 NLP 中使用 code-mixed 数据的研究,并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。