使用时空再训练的语言模型检测社交媒体评论中的恐同 / 恐跨性别现象
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024
本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统,使用 mBERT 等模型,并通过数据增强技术处理类别不平衡问题,代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中,我们的排名分别为 9、6、3,宏平均 F1 得分为 0.42、0.64 和 0.58。
Mar, 2022
研究了在 Dravidian 语言中检测社交媒体评论中的 LGBT-phobia 内容,并应用卷积神经网络、LSTM、BERT 等深度学习模型进行分类。结果表明 IndicBERT 模型在 Malayalam 和 Tamil 语言中的加权平均 F1-score 分别为 0.86 和 0.77,具有更高的分类性能。
Apr, 2023
通过多语言和特定语言的联合方法,本研究构建了一种简单而成功的方法来检测针对跨性别和同性恋群体的仇恨言论,并在多种语言中取得了最佳结果,达到马拉雅拉姆语文本方面的 0.997 宏平均 F1 分数。
Sep, 2023
本文描述了我们在 LT-EDI 2024 Workshop 的 Task 2 中针对十种语言中的同性恋恐惧症和 / 或跨性别恐惧症的检测的方法和结果。我们的方法包括单语种变换器和集成方法,利用各种方法的优势来提高模型的性能。集成模型效果良好,在十种语言中的八种语言中,我们的团队 MasonTigers 以宏 F1 分数计算排名前五。我们的工作强调了集成方法在多语言场景中的有效性,解决了语言特定任务的复杂性。
Jan, 2024
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
该研究在五种不同语言中展开了对仇恨言论的广泛比较分析,使用多种预训练模型评估其在这些语言中识别仇恨言论的性能,并为多语言环境下构建强大的仇恨言论检测系统提供了有益的见解。
Dec, 2023
使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论,无论语言如意大利语、英语、德语还是孟加拉语,该模型的检测准确率较现有基准和最先进模型提高,其成功率达到了 89%(孟加拉语)、91%(英语和德语)以及 77%(意大利语)
Jan, 2024