面向所有人的敏捷文本分类器

Feb, 2023

Towards Agile Text Classifiers for Everyone

Maximilian Mozes, Jessica Hoffmann, Katrin Tomanek, Muhamed Kouate, Nithum Thain...

TL;DR本文介绍并评估了一种针对特定策略快速开发分类器的敏捷文本分类方法，实验表明使用尽少至 80 个示例的标记数据集对大型语言模型（PaLM 62B）进行快速调整能够实现最先进的性能，并认为这种方法有助于支持更安全的在线话语模型

Abstract

text-based safety classifiers are widely used for content moderation and increasingly to tune generative language model behavior - a topic of growing concern for the safety of digital assistants and chatbots. However, different policies require different classifiers, and safety policie

text-based safety classifiers generative language models agile text classification palm 62b online discourse

发现论文，激发创造

通过数据增强的参数高效微调改善安全分类器的少样本泛化能力

领域通用的少样本学习方法进行调优和数据增强，相较于传统方法，在社交化化学道德判断和毒性检测任务中提高了 7-17% 的 F1 分数和 9-13% 的 AUC。

Oct, 2023

大型语言模型的强大安全分类器：对抗性提示屏蔽

大型语言模型的安全性是一个重要问题，本研究提出了 Adversarial Prompt Shield（APS）这个轻量级模型，能够有效检测和抵御对抗抓取；同时，我们还引入了自动生成对抗训练数据集的新策略，命名为 Bot Adversarial Noisy Dialogue（BAND）数据集，以提高安全分类器的鲁棒性。经过评估，我们的分类器成功率提高了 60%，为下一代更可靠和韧性更强的对话代理铺平了道路。

Oct, 2023

通过主动学习提高文本分类中的概率模型

提出了一种将概率模型和主动学习结合起来的新算法，用于降低自动化文本分类的标注成本，实现对未标注数据和难分类文档的集中标注，性能可与最先进的方法相媲美，使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同，并提供了 activeText 软件。

Feb, 2022

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有 5% 有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

分类器是可控文本生成的更好专家

本研究提出了一种基于分类器的自由形式抽样（CAIF sampling）的可控文本生成方法，在可用的分类器权重下调整语言模型的 logits，从而引导文本生成向预测的分类器结果或远离分类器结果，实验表明该方法在毒性避免和情感控制方面优于最近的 PPLM、GeDi 和 DExperts，并且相对于其他方法，更易于实现和调整，并且要求更少的限制和要求。

May, 2022

关于对话模型的安全性：分类法，数据集和基准

在人 - 机对话设定中，我们为对话安全性提出了一种专门捕捉不安全行为的分类法，重点在于对先前的探讨不足的上下文敏感性不安全性的关注，并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety，实验证明现有的安全保护工具严重失败。为此，我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线，在流行的对话模型上执行安全评估，并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。

Oct, 2021

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

安全调校型 LLaMAs：提升遵循指令大型语言模型安全性的经验教训

训练大型语言模型遵循指示能够使其在各种任务上表现更好，但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外，我们证明了在训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例（几百个演示）可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而，我们发现一种夸大的安全性行为，即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。

Sep, 2023