预测马拉提语攻击性社交媒体帖子的类型和目标
本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作,讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯,比较了不同 BERT 模型在 HASOC 2022 测试集上的表现,包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等,并且当将 MahaTweetBERT 模型在结合数据集(HASOC 2021 + HASOC 2022 + MahaHate)上进行微调时,其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分,这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。
Dec, 2022
本文旨在针对多种不同类型的社交媒体攻击信息进行分类,构建了一个针对这个任务的分层模型,并提供了一个细粒度三层注释方案的 Offensive Language Identification Dataset (OLID) 数据集。最后,我们通过实验证明了不同机器学习模型的性能差异。
Feb, 2019
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零 - shot 学习环境下显示出可扩展性。
Jul, 2020
本研究采用多语言 BERT 提取特征,并在其上使用三个不同的分类器以识别社交媒体上的辱骂内容,最终在 Malayalam 数据上获得 0.70 的加权 F1 分数并排名第五,在 Tamil 数据上获得 0.573 的加权 F1 分数并排名第十一。
Apr, 2022
我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
Oct, 2023
本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测,结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。
Oct, 2020
本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。
Dec, 2022
本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。
Oct, 2022