提高对齐性和鲁棒性的短路

Jun, 2024

Improving Alignment and Robustness with Short Circuiting

Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin...

TL;DRAI 系统在面临对抗性攻击时可能会采取有害行为，本研究提出了一种基于表示工程的方法，通过直接控制导致有害输出的表示来防止有害输出的生成，从而在不牺牲实用性的前提下，提供了可靠的防止有害行为和对抗性攻击的保护措施。

Abstract

ai systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that "short-circuits" models as they respond with

ai systems adversarial attacks representation engineering short-circuiting harmful outputs

发现论文，激发创造

高风险可靠性的对抗训练

通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

May, 2022

AI 控制：尽管存在故意违抗改善安全

通过开发和评估能够抵御恶意破坏的安全技术（协议），我们研究了使用大型语言模型（LLMs）解决编程问题的场景，并且改进了现有的基准方法。

Dec, 2023

工控系统中机器学习网络安全防御的对抗攻击

该研究探讨了如何使用对抗性学习通过生成基于 Jacobian 的显著性图攻击的对抗性样本以及探索分类行为，从而攻击监督模型。该分析还包括如何使用对抗性训练来支持监督模型的鲁棒性。随着对抗性样本的出现，两个广泛使用的分类器 —— 随机森林和 J48 的分类性能分别降低了 16 和 20 个百分点，但训练后它们的性能得到提高，证明了它们对这种攻击的鲁棒性。

Apr, 2020

一种简单而又难以击败的数据增强方法，用于自然语言理解和生成

本论文提出了一种简单且有效的数据增广策略 ——“cutoff”，并采用 Jensen-Shannon Divergence 一致性损失将这些增广样本融入到训练目标中，以有效提升人工智能在自然语言理解和生成，机器翻译等领域的表现。cutoff 方法与竞争对手相比表现相当甚至更好，并在 IWSLT2014 German-English 数据集上取得了最优性能。

Sep, 2020

神经网络是否被对抗性对齐？

本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本（adversarial examples）的攻击，进一步研究多模型模型在敌对攻击下的表现。结果发现，虽然当前的 NLP 攻击在某种程度上是无效的，但多模型模型很容易受到攻击，需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。

Jun, 2023

软对抗训练可以保留自然准确度

本文研究用抽象认证来提取子输入以进行软对抗训练，提出了一个培训框架，能在约束条件下保持自然精度而不牺牲强健性，证明了软对抗性训练在对抗攻击防御方面的可行性，并提出了未来工作的范围以进一步改进该框架。

Jun, 2022

克服 AI 集成系统开发和部署中的想象力失败

介绍了计算系统杂交网络可能造成的几种潜在的伤害形式，探讨了这些潜在的伤害对不同利益相关方的影响，并提出了有效的伤害预防框架应该考虑包括计算系统特征、利益相关方和潜在伤害的广泛范围等在内的因素。

Nov, 2020

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

深度神经网络的快捷学习

本文介绍深度学习中的 shortcut learning 问题，该问题用于在标准基准测试中表现良好的决策规则在更具挑战性的测试条件下失败，作者提出了一些模型解释和基准测试的建议，以改善从实验室到真实世界应用的稳健性和可迁移性。

Apr, 2020

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024