撒下风，收获飓风：编辑语言模型的影响

Jan, 2024

撒下风，收获飓风：编辑语言模型的影响

Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models

Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

TL;DR人工智能领域中，大型语言模型的红队测试或越狱概念成为一项关键研究领域，本文通过模型编辑的方式调查了这种修改的复杂后果，并揭示了在提高模型准确性和保护伦理完整性之间存在的复杂关系。研究发现，注入准确信息对模型的可靠性至关重要，但却可能不可预测地破坏其基础框架，产生潜在的不安全行为。同时，研究还提出了一个基准数据集 NicheHazardQA，用于研究模型在相同和不同主题领域内的不安全行为，从而揭示了编辑对模型安全指标和保护措施的影响。研究结果表明，模型编辑是一种成本效益高的工具，可通过有针对性的修改和评估产生的模型行为来进行主题相关红队测试。

Abstract

In the rapidly advancing field of artificial intelligence, the concept of red-teaming or Jailbreaking large language models (LLMs) has eme

artificial intelligence red-teaming large language models model editing model safety

发现论文，激发创造

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Feb, 2024

大型语言模型能否稳健地进行编辑？

大语言模型的编辑方法在实际应用中存在明显的性能衰退，更流行的知识难以编辑且对性能和鲁棒性有较强关联。

Feb, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有 5% 有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

跨界拓展：模型编辑对跨语言性能的影响研究

该研究通过考察多语境下的几种知识编辑技术，战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语等语言上的性能。研究发现了跨语言一致性方面正常模型和合并模型之间的显著差异。我们采用 “每种语言为自己”（ELFI）和 “每种语言为他人”（ELFO）等策略对这些模型进行了强化测试。研究结果表明，LMM 具有克服语言障碍的潜力，为实现人工智能技术中的语言包容性奠定了基础。

Jun, 2024