Apr, 2024

弱监督因果解离下的跨平台仇恨言论检测

TL;DR使用基于置信度的重新权重和对比正则化的方法,本研究提出了 HATE WATCH,这是一种弱监督因果分解的新型框架,可以绕过显式目标标签的需求,并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法,并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术,以发展更加安全的在线社区。