微型有毒检测器:一种紧凑的基于变换器的有毒内容检测模型
本文提出了一种通过生成包含毒性单词的对抗样本,从而检验模型对毒性内容的识别性能,并探讨了使用Contextual Denoising Autoencoder提高模型鲁棒性的方法。实验表明,该方法在某些情况下可以将现有模型的检测准确率降低50%以上。
Dec, 2019
本文提出一种改进transformer-based models解释性的技术,通过假设一篇文章至少和其最有毒的部分一样有毒,并将其纳入训练过程来提高模型的可解释性,实验证明该方法优于逻辑回归分析,具备更高的质量和解释性。
Mar, 2021
大型语言模型在内容审核中表现出的强大能力备受关注,本研究通过评估一系列商用的现代语言模型(GPT-3,GPT-3.5,GPT-4),在基于规则的社区审核和毒性内容检测两个常见任务中发现,这些模型在许多社区的审核上表现出很高的准确性和精确度,并且超越现有的商用毒性分类器,同时也指出了在毒性检测任务上模型规模增加对性能的边际益处,暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。
Sep, 2023
本研究介绍了ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与AI交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与AI交互的安全健康环境提供了宝贵的资源。
Oct, 2023
BD-LLM提出了一种新颖而高效的方法,利用Bootstrapping和Distilling技术提取高质量的rationales,用于毒性内容检测,并可提高Large Language Models的准确性和跨数据集的可迁移性。
Dec, 2023
本研究通过引入一个基准数据集,首次探索了多模式母语混杂视频内容中有害内容的检测问题,设计了一个先进的多模态多任务框架来进行视频内容的毒性检测,并通过整合视频的多个语言模式大大提高了检测效果。
May, 2024
通过整合投票和思维链过程的数据集创建机制,本研究提出了一种高质量的开源数据集用于检测有毒内容。这种方法不仅确保了每个样本的多样化分类指标,还包括分类得分和解释性推理。我们利用通过我们提出的机制创建的数据集来训练我们的模型,并将其与现有的广泛使用的检测器进行了比较。这种方法不仅增强了透明度和可定制性,还有助于更好地针对特定用例进行微调。本研究为开发有毒内容检测模型提供了一个稳健的框架,强调了开放性和适应性,从而为更有效和用户特定的内容审核解决方案铺平了道路。
Jun, 2024
本研究针对大型语言模型(如ChatGPT和Gemini)中有毒提示的检测问题,提出了一种轻量级的灰盒方法ToxicDetector。该方法利用模型生成有毒概念提示,结合特征向量和多层感知机分类器进行检测,测试结果表明其准确率达到96.39%,且处理时间短,适合实时应用,显著优于现有技术。
Aug, 2024
本研究针对低资源环境中缺乏数据和对有害内容的定义不一致的问题,提出了ToxiCraft框架,该框架可以合成真实感极强的有害信息数据集。实验表明,该框架显著提高了检测模型的鲁棒性和适应性,接近或超过了标准标签的性能。
Sep, 2024