微型有毒检测器：一种紧凑的基于变换器的有毒内容检测模型

Aug, 2024

微型有毒检测器：一种紧凑的基于变换器的有毒内容检测模型

Tiny-Toxic-Detector: A compact transformer-based model for toxic content detection

Michiel Kamphuis

TL;DR本研究提出了微型有毒检测器，这是一种仅有210万参数的紧凑型变换器模型，旨在检测有毒内容。尽管模型小巧，但在基准数据集上表现优异，能够在资源受限的环境中有效部署，满足内容审核工具对性能与计算效率的平衡需求。

Abstract

This paper presents Tiny-toxic-detector, a compact transformer-based model designed for Toxic content detection. Despite having only 2.1 million parameters, Tiny-toxic-detector achieves competitive performance on benchmark datasets, with 90.97% accuracy on ToxiGen and 86.98% accuracy o

发现论文，激发创造

实现稳健有害内容分类

本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用Contextual Denoising Autoencoder提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低50％以上。

Dec, 2019

ToxCCIn: 毒性内容分类与解释能力

本文提出一种改进transformer-based models解释性的技术，通过假设一篇文章至少和其最有毒的部分一样有毒，并将其纳入训练过程来提高模型的可解释性，实验证明该方法优于逻辑回归分析，具备更高的质量和解释性。

Mar, 2021

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

谨言慎行：大型语言模型与内容管理

大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，并且超越现有的商用毒性分类器，同时也指出了在毒性检测任务上模型规模增加对性能的边际益处，暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。

Sep, 2023

ToxicChat: 揭示现实世界用户与AI对话中的隐含挑战

本研究介绍了ToxicChat，这是一个基于开源聊天机器人的新型基准，用于揭示现实世界中用户与AI交互所面临的挑战，并对现有毒性数据集训练的模型进行了系统评估，揭示了其在此独特领域中的不足。该工作为进一步构建用户与AI交互的安全健康环境提供了宝贵的资源。

Oct, 2023

通过引导和精简大型语言模型实现高效毒性内容检测

BD-LLM提出了一种新颖而高效的方法，利用Bootstrapping和Distilling技术提取高质量的rationales，用于毒性内容检测，并可提高Large Language Models的准确性和跨数据集的可迁移性。

Dec, 2023

ToxVidLLM：一种基于多模态LLM的代码混合视频毒性检测框架

本研究通过引入一个基准数据集，首次探索了多模式母语混杂视频内容中有害内容的检测问题，设计了一个先进的多模态多任务框架来进行视频内容的毒性检测，并通过整合视频的多个语言模式大大提高了检测效果。

May, 2024

通过投票实现毒性分类

通过整合投票和思维链过程的数据集创建机制，本研究提出了一种高质量的开源数据集用于检测有毒内容。这种方法不仅确保了每个样本的多样化分类指标，还包括分类得分和解释性推理。我们利用通过我们提出的机制创建的数据集来训练我们的模型，并将其与现有的广泛使用的检测器进行了比较。这种方法不仅增强了透明度和可定制性，还有助于更好地针对特定用例进行微调。本研究为开发有毒内容检测模型提供了一个稳健的框架，强调了开放性和适应性，从而为更有效和用户特定的内容审核解决方案铺平了道路。

Jun, 2024

大型语言模型中的有毒提示高效检测

本研究针对大型语言模型（如ChatGPT和Gemini）中有毒提示的检测问题，提出了一种轻量级的灰盒方法ToxicDetector。该方法利用模型生成有毒概念提示，结合特征向量和多层感知机分类器进行检测，测试结果表明其准确率达到96.39%，且处理时间短，适合实时应用，显著优于现有技术。

Aug, 2024

ToxiCraft：合成生成有害信息的新框架

本研究针对低资源环境中缺乏数据和对有害内容的定义不一致的问题，提出了ToxiCraft框架，该框架可以合成真实感极强的有害信息数据集。实验表明，该框架显著提高了检测模型的鲁棒性和适应性，接近或超过了标准标签的性能。

Sep, 2024