基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法
通过使用预训练语言模型 BERT 进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
本文介绍了一种机器学习和自然语言处理模型,通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法,并开发了一个可视化工具用于多个数据集的简要分析。
Jun, 2019
本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术,对社交媒体上的仇恨言论进行分类,使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能,最终以新数据集 DHO 进行多标签分类,取得了不错的成果,尤其在集成学习方面表现良好,如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分,而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。
Sep, 2022
本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型,包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法,并评估了不同模型在比赛中的表现。结果表明,基于转移学习的模型在两个子任务中均取得了最佳结果。
Jan, 2022
使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论,无论语言如意大利语、英语、德语还是孟加拉语,该模型的检测准确率较现有基准和最先进模型提高,其成功率达到了 89%(孟加拉语)、91%(英语和德语)以及 77%(意大利语)
Jan, 2024
通过多任务联合学习中的情感特征提取方法,本文使用 Bert 和 mBert 模型提升了社交媒体平台上有害内容的探测,实现了数据高效率和更好的分类效果。
Feb, 2023
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
我们研究了替代性的基于变压器的生成型 AI 技术,并开发了一种新的数据标注技术,证明了这些先进方法在应对仇恨言论检测中的比较有效性,强调在敏感环境中需要负责任和谨慎管理的 AI 应用。
May, 2024
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021