通过引导和精简大型语言模型实现高效毒性内容检测

Dec, 2023

通过引导和精简大型语言模型实现高效毒性内容检测

Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models

Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du...

TL;DRBD-LLM 提出了一种新颖而高效的方法，利用 Bootstrapping 和 Distilling 技术提取高质量的 rationales，用于毒性内容检测，并可提高 Large Language Models 的准确性和跨数据集的可迁移性。

Abstract

toxic content detection is crucial for online services to remove inappropriate content that violates community standards. To automate the detection process, prior works have proposed varieties of machine learning (ML) approaches to train Language Models (LMs) for →

toxic content detection large language models bd-llm bootstrapping rationales

发现论文，激发创造

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

毒性检测自由

使用 LLMs 自身提取的信息，通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距，我们提出了一种新的毒性侦测模型 MULI，它不需要训练或额外计算成本，并基于首个响应标记的 logits 构建了一个更强大的检测器，其性能超过了现有技术下的多个指标。

May, 2024

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

利用零射击提示进行高效的语言模型蒸馏

本文介绍了一种新颖的方法，可以将 LLMs 高效地提炼成更小的、面向特定应用的模型，显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释，从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释，减少手工制作的小样本示例的需求，并降低令牌数，这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外，本文还研究了解释特性对提炼效率的影响，并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失，从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步，提供了大幅降低成本并保持甚至增强性能的可能性。

Mar, 2024

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

通过死路分析系统性地修正语言模型

本文介绍了一种名为 “修正” 的方法，它利用了最新的强化学习文献中的死路理论，依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题，从而提高生成文本的质量和去毒能力。

Feb, 2023

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

LLM 能否识别有毒性？结构化毒性调查框架与基于语义的度量

我们提出了一种基于大型语言模型的自动鲁棒度量方法，用于判断生成文本是否具有毒性，这种方法在衡量毒性方面表现出色，在 F1 分数上比最先进的度量方法提高了 12 个百分点，同时表明上游毒性对下游度量方法有影响。

Feb, 2024