ToXCL: 毒性言论检测和解释的统一框架

ACLMar, 2024

ToXCL: 毒性言论检测和解释的统一框架

ToXCL: A Unified Framework for Toxic Speech Detection and Explanation

Nhat M. Hoang, Xuan Long Do, Duc Anh Do, Duc Anh Vu, Luu Anh Tuan

TL;DR为了解决网络毒性言论的问题，本文提出了一个统一框架 ToXCL，用于检测和解释隐含的毒性言论，并取得了最新最有效的结果，明显优于基线模型。

Abstract

The proliferation of online toxic speech is a pertinent problem posing threats to demographic groups. While explicit toxic speech contains offensive lexical signals, implicit one consists of coded or indirect language. Therefore, it is crucial for models not only to detect

online toxic speech implicit toxic speech unified framework toxcl detection and explanation

发现论文，激发创造

ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

通过使用深度学习解释技术，本研究开发了一个可视化交互及可解释的工具 ToxVis，通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别，对在线暴恐言论进行分类，为内容审查提供了一个有价值的手段。

Mar, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

ToxCCIn: 毒性内容分类与解释能力

本文提出一种改进 transformer-based models 解释性的技术，通过假设一篇文章至少和其最有毒的部分一样有毒，并将其纳入训练过程来提高模型的可解释性，实验证明该方法优于逻辑回归分析，具备更高的质量和解释性。

Mar, 2021

Tox-BART：利用毒性属性生成隐含仇恨言论的解释

利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域，解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能，但我们的研究提出了冲突的证据，认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此，将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC（LatentHatred）数据集上，我们观察到相当的性能表现，BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明，我们提出的设置比零样本 GPT-3.5 产生了更精确的解释，突显了任务的复杂性。

Jun, 2024

促进中文有害语言的细粒度检测：分层分类法、资源和基准

本文介绍了一种精细检测中文毒性语言的方法，包括构建一个监控毒性框架、建立 ToxiCN 数据集、构建侮辱词汇表等。实验证明了这种方法的有效性，并对结果进行了系统定量和定性分析。

May, 2023

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

通过语音文本对齐提升多语言语音有害性检测

利用跨模态学习将文本的语义嵌入集成到多标签语音毒性分类器中，该分类器仅在训练期间需要文本信息，推理时仅需要音频信息，并通过大规模数据集在真实环境下验证了此框架的有效性，同时通过消融研究证明了通用语义文本嵌入对于毒性分类目的的丰富性和与语音的一致性，通过规模化跨多种语言进行实验，展示了在五种语言和不同毒性类别中语音毒性分类的改进。

Jun, 2024

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023