LLM 能否识别有毒性？结构化毒性调查框架与基于语义的度量

Feb, 2024

LLM 能否识别有毒性？结构化毒性调查框架与基于语义的度量

Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework and Semantic-Based Metric

Hyukhun Koh, Dohyung Kim, Minwoo Lee, Kyomin Jung

TL;DR我们提出了一种基于大型语言模型的自动鲁棒度量方法，用于判断生成文本是否具有毒性，这种方法在衡量毒性方面表现出色，在 F1 分数上比最先进的度量方法提高了 12 个百分点，同时表明上游毒性对下游度量方法有影响。

Abstract

In the pursuit of developing large language models (LLMs) that adhere to societal standards, it is imperative to discern the existence of toxicity in the generated text. The majority of existing toxicity metrics

large language models toxicity metrics encoder models toxicity factors llms as toxicity evaluators

发现论文，激发创造

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

揭示大型语言模型中的隐含毒性

大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题，在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外，我们提出了一种基于强化学习 (RL) 的攻击方法，进一步诱发 LLMs 中的内隐性毒性。例如，RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明，LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示，对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。

Nov, 2023

RTP-LX: 多语言情境下，LLM 能否评估毒性？

通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX，我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力，并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难，特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。

Apr, 2024

毒性检测自由

使用 LLMs 自身提取的信息，通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距，我们提出了一种新的毒性侦测模型 MULI，它不需要训练或额外计算成本，并基于首个响应标记的 logits 构建了一个更强大的检测器，其性能超过了现有技术下的多个指标。

May, 2024

ToxVidLLM：一种基于多模态 LLM 的代码混合视频毒性检测框架

本研究通过引入一个基准数据集，首次探索了多模式母语混杂视频内容中有害内容的检测问题，设计了一个先进的多模态多任务框架来进行视频内容的毒性检测，并通过整合视频的多个语言模式大大提高了检测效果。

May, 2024

FrenchToxicityPrompts：法文文本中评估和缓解有害性的大型基准

我们创建并发布了 FrenchToxicityPrompts 数据集，评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性，并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。

Jun, 2024

通过引导和精简大型语言模型实现高效毒性内容检测

BD-LLM 提出了一种新颖而高效的方法，利用 Bootstrapping 和 Distilling 技术提取高质量的 rationales，用于毒性内容检测，并可提高 Large Language Models 的准确性和跨数据集的可迁移性。

Dec, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023