Mar, 2024

基于大型语言模型提取理由的可解释仇恨言论检测

TL;DR为了解决社交媒体中的仇恨言论问题,本文提出使用最新的大型语言模型(LLMs)从文本中提取特征,以训练基于仇恨言论分类器,从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集,证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。