Jun, 2024

HateDebias: 关于仇恨言论去偏见的多样性与可变性

TL;DR社交媒体上的仇恨言论普遍存在且亟需控制,本研究提出了一个名为 HateDebias 的基准测试,旨在分析在不断变化的环境下仇恨言论检测模型的能力,通过收集不同类型偏见的现有数据集,并重新组织数据集以适应连续学习的设置,评估在单一类型偏见数据集上训练的模型的检测准确性与在 HateDebias 上的表现,进一步提出了基于连续学习和偏见信息规范化的去偏见框架和记忆重播策略,实验结果表明该方法可以显著提高几个基线模型的效果,突显其在实际应用中的有效性。