ToXCL: 毒性言论检测和解释的统一框架
通过使用深度学习解释技术,本研究开发了一个可视化交互及可解释的工具 ToxVis,通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别,对在线暴恐言论进行分类,为内容审查提供了一个有价值的手段。
Mar, 2023
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
本文提出一种改进 transformer-based models 解释性的技术,通过假设一篇文章至少和其最有毒的部分一样有毒,并将其纳入训练过程来提高模型的可解释性,实验证明该方法优于逻辑回归分析,具备更高的质量和解释性。
Mar, 2021
利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域,解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能,但我们的研究提出了冲突的证据,认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此,将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC(LatentHatred)数据集上,我们观察到相当的性能表现,BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明,我们提出的设置比零样本 GPT-3.5 产生了更精确的解释,突显了任务的复杂性。
Jun, 2024
本文介绍了一种精细检测中文毒性语言的方法,包括构建一个监控毒性框架、建立 ToxiCN 数据集、构建侮辱词汇表等。实验证明了这种方法的有效性,并对结果进行了系统定量和定性分析。
May, 2023
本论文介绍了 ToxiGen,一个新的大规模自动生成的 274k 毒性和良性陈述数据集,用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本,ToxiGen 能够覆盖范围更广的暗含毒性文本,包括更多样化的人口群体。与此同时,研究者通过人类评估表明,94.5%的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。
Mar, 2022
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
利用跨模态学习将文本的语义嵌入集成到多标签语音毒性分类器中,该分类器仅在训练期间需要文本信息,推理时仅需要音频信息,并通过大规模数据集在真实环境下验证了此框架的有效性,同时通过消融研究证明了通用语义文本嵌入对于毒性分类目的的丰富性和与语音的一致性,通过规模化跨多种语言进行实验,展示了在五种语言和不同毒性类别中语音毒性分类的改进。
Jun, 2024
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023