Cordyceps@LT-EDI:用多语言理解修补特定语言中的恐同 / 恐跨性别分类器
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024
本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统,使用 mBERT 等模型,并通过数据增强技术处理类别不平衡问题,代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中,我们的排名分别为 9、6、3,宏平均 F1 得分为 0.42、0.64 和 0.58。
Mar, 2022
该研究使用 BERT-based 语言模型开发了多类别分类系统,用于检测社交媒体评论中的恐同和恐 Trans 内容,跨五种语言条件:英语,西班牙语,印地语,马拉雅拉姆语和泰米尔语。发现使用时空相关的社交媒体语言数据可以提高语言分类系统的性能。
Aug, 2023
研究了在 Dravidian 语言中检测社交媒体评论中的 LGBT-phobia 内容,并应用卷积神经网络、LSTM、BERT 等深度学习模型进行分类。结果表明 IndicBERT 模型在 Malayalam 和 Tamil 语言中的加权平均 F1-score 分别为 0.86 和 0.77,具有更高的分类性能。
Apr, 2023
本文描述了我们在 LT-EDI 2024 Workshop 的 Task 2 中针对十种语言中的同性恋恐惧症和 / 或跨性别恐惧症的检测的方法和结果。我们的方法包括单语种变换器和集成方法,利用各种方法的优势来提高模型的性能。集成模型效果良好,在十种语言中的八种语言中,我们的团队 MasonTigers 以宏 F1 分数计算排名前五。我们的工作强调了集成方法在多语言场景中的有效性,解决了语言特定任务的复杂性。
Jan, 2024
通过构建一个新的分层分类法及提供专业标注数据集,可以自动识别恶意内容,这对于消除在社交媒体上存在的针对 LGBT + 人群的仇恨言论至关重要。
Sep, 2021
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021