多语言 YouTube 评论中的恐同和跨性别歧视辨识数据集
研究了在 Dravidian 语言中检测社交媒体评论中的 LGBT-phobia 内容,并应用卷积神经网络、LSTM、BERT 等深度学习模型进行分类。结果表明 IndicBERT 模型在 Malayalam 和 Tamil 语言中的加权平均 F1-score 分别为 0.86 和 0.77,具有更高的分类性能。
Apr, 2023
通过多语言和特定语言的联合方法,本研究构建了一种简单而成功的方法来检测针对跨性别和同性恋群体的仇恨言论,并在多种语言中取得了最佳结果,达到马拉雅拉姆语文本方面的 0.997 宏平均 F1 分数。
Sep, 2023
本文介绍了我们基于转换器模型的 LT-EDI 共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统,使用 mBERT 等模型,并通过数据增强技术处理类别不平衡问题,代码已开源。在英语、泰米尔语和泰米尔语 - 英语子任务中,我们的排名分别为 9、6、3,宏平均 F1 得分为 0.42、0.64 和 0.58。
Mar, 2022
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024
在本文中,我们提出了基于 YouTube 和 Reddit 评论的文本数据集 'EHTOS',并介绍了用于创建该数据集的注释协议,旨在平衡数据。我们的关键假设是,即使从这样耗时的过程中获得一小部分标记数据,我们也可以保证在所检查的材料中发现仇恨言论。
Jun, 2020
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
该研究使用 BERT-based 语言模型开发了多类别分类系统,用于检测社交媒体评论中的恐同和恐 Trans 内容,跨五种语言条件:英语,西班牙语,印地语,马拉雅拉姆语和泰米尔语。发现使用时空相关的社交媒体语言数据可以提高语言分类系统的性能。
Aug, 2023
该研究使用真实数据集,通过数据分析和机器学习模型,有效检测在线讨论中有害的 LGBTQIA + 相关言论,证实大型语言模型在此任务中具有良好性能。
Jun, 2022
印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。
Jun, 2024
概述:该研究提出了 ViHOS 数据集,它是第一个包含 11k 条评论和 26k 个含有仇恨和攻击性言论的人工标注的数据集。通过使用各种最先进的模型进行实验,我们发现 XLM-R $_{Large}$ 在单个范围检测和所有范围检测方面取得了最佳的 F1 分数,而 PhoBERT $_{Large}$ 在多个范围检测方面获得了最高的分数。该研究的目的在于帮助解决社交网络平台上存在的恶意和攻击性言论的问题。
Jan, 2023