使用跨语言表示学习器进行多语言混合编码希望言论检测
本文介绍了使用上下文嵌入和预训练 transformer 模型的方法来检测 HopeEDI 数据集中的 Hope speech。实验表明,使用预训练 transformer 模型的方法在英语、泰米尔语和马拉雅拉姆语上均优于使用逻辑回归、随机森林、SVM 和 LSTM 的方法,F1 得分最高值达到了 0.93。
Feb, 2021
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021
本文介绍了一个用于分类 Twitter 推文的希望言论数据集,并提供了基于不同学习方法的多项基准测试以进行评估和分析。研究中发现,使用严格的注释过程并提供详细的注释指南可以提高数据集的质量。同时,使用上下文嵌入模型进行希望言论检测有更高的性能表现。
Oct, 2022
使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论,无论语言如意大利语、英语、德语还是孟加拉语,该模型的检测准确率较现有基准和最先进模型提高,其成功率达到了 89%(孟加拉语)、91%(英语和德语)以及 77%(意大利语)
Jan, 2024
本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析,发现在低资源设置下,使用 LASER 嵌入和逻辑回归的简单模型性能最佳,在高资源设置下,BERT 模型表现更好。对于零样本分类,意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案,并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。
Apr, 2020
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024