大规模语言模型的红队攻防：解决数学任务中的幻觉问题

ACLDec, 2023

大规模语言模型的红队攻防：解决数学任务中的幻觉问题

Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks

Aleksander Buszydlik, Karol Dobiczek, Michał Teodor Okoń, Konrad Skublicki, Philip Lippmann...

TL;DR评估不同提示技术对解答质量的影响，通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现，尽管结构化推理和提供解题示例可以减缓解答质量的恶化，但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳，即使在红组合作的情况下。

Abstract

We consider the problem of red teaming llms on elementary calculations and algebraic tasks to evaluate how various prompting techniques af

red teaming llms prompting techniques numerical questions structured reasoning

发现论文，激发创造

走向多模态多语种翻译的红色团队

自然语言处理性能评估变得越来越复杂，本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用，为理解和改进翻译模型的性能迈出了重要一步。

Jan, 2024

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

红队模拟可视化语言模型

研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距，结果显示这些 VLM 在不同程度上面临红队挑战，并且与 GPT-4V 相比，性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型，性能提高了 10% 以上，并显示出其他基于 LLaVA 的模型无法达到的性能，同时产生的数据对性能并无明显下降。

Jan, 2024

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。

Feb, 2024

基于梯度的语言模型红队测试

基于梯度的红队技术（GBRT）是一种自动生成多样的提示，很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示，我们训练了 GBRT。为了提高输入提示的连贯性，我们引入了两个变体，即添加现实损失和微调预训练模型以生成提示，而不是直接学习提示。实验结果表明，与强化学习为基础的红队技术方法相比，GBRT 在找到触发语言模型生成不安全回应的提示方面更为有效，即使该 LM 已被微调以生成更安全的输出。

Jan, 2024

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023