- 迈向保证安全的人工智能:确保强大可靠 AI 系统的框架
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为 AI 系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
- BiasKG: 用对抗知识图谱在大型语言模型中引入偏见
现代大型语言模型拥有丰富的世界知识,可以在正确利用的情况下在常识推理和知识密集型任务方面取得强大的性能。然而,语言模型也能够学习社会偏见,可能对社会造成重大危害。本文提出了一种使用知识图谱增强生成模型的攻击语言模型的新方法,并采用敌对攻击策 - 开源生成式人工智能的近中期风险与机遇
近年来,生成型人工智能的应用预计将在多个领域引起革命性的改变,领域范围涵盖科学、医学和教育等。这种巨大变革的潜力引发了有关潜在风险的激烈辩论,并引起了一些主导 AI 开发的科技巨头呼吁加强监管的声音。然而,这种监管可能会对开源的生成型 AI - AI 安全的机理解释性研究 -- 综述
理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示,将其转化为人类可理解的算法和概念,从而提供一个细致的,因果性的理解。我们建立了基本概念,如神经激活中编码的知识特征以及有关其表示和计 - ML2SC: 将机器学习模型部署为区块链上的智能合约
通过将 PyTorch 模型转换为 Solidity 智能合约版本,我们介绍了机器学习与智能合约(ML2SC),该工具使用固定点数数学库近似浮点数计算,实现了在区块链上部署和运行机器学习模型,并评估了与该实现相关的气体成本以及分类的准确性。
- AI 安全:必要,但不足且可能存在问题
人工智能安全性的炒作对于推进社会公益的其他人工智能研究途径产生冲突,因为 AI 安全性与透明度等社会公益相关概念存在微妙而棘手的关系。此外,AI 安全性辩论也可能使一些监管工作朝着不太理想的方向发展,同时给会造成结构性伤害的 AI 提供一种 - 机器遗忘中的威胁、攻击与防御:一项综述
机器去学习的关键概念、影响因素和机制的综述,提供对威胁和防御的分类、方法和解决方案的建议,以促进未来研究和实际应用的发展。
- ICLR人工智能安全性的具体问题再探讨
AI 安全的概念在社会中日益普及,AI 社区越来越关注 AI Safety 的概念,即防止在 AI 部署过程中系统行为意外偏离设计意图而导致的故障。通过分析真实案例,我们展示了当前的词汇虽然能够涵盖 AI 部署中遇到的一系列问题,但仍需要一 - 噪声 AI 代理的 NTQR 评估逻辑:完备公设与逻辑一致的误差相关性
通过代数学公设,本研究构建了一种全面的评估算法来解决无监督环境下监控 AI 代理的问题,在评估二分类器的时候,考虑了错误相关性,与通过多数投票评分相比,该代数评估器能够提高机器使用 AI 算法的安全性。
- 通过遗憾最小化进行 AI 安全的辩论
考虑使用辩论作为 AI 安全问题的重复博弈,研究在该情境下当玩家是 AI 或人类,且拥有超级 AI 计算能力时的高效后悔最小化问题,进一步阐述了达到相关均衡的策略序列的条件。
- OMNIINPUT: 通过输出分布的模型中心化评估框架
提出了一种新颖的模型中心化评估框架 OmniInput,用于评估 AI/ML 模型对所有可能输入(包括人类无法识别的输入)的预测质量,这对于 AI 安全和可靠性至关重要,并且通过调查模型的输出分布进行模型质量评估。通过使用高效的采样器获取代 - 附带的多义性
多义性神经元是优化任务的深度网络中的一个重要障碍,会对人工智能安全性产生影响。本研究提出了多义性的第二种可能产生方式,名为 “偶发性多义性”,并通过理论和实验证明了这种现象的存在。
- 通过双倍高效辩论实现可扩展的人工智能安全
通过设计一套新的辩论协议,本文展示了如何解决 AI 安全中的挑战,其中诚实策略能够使用多项式数量的步骤来成功模拟预训练 AI 系统,同时能够验证随机 AI 系统的对齐性,即使不诚实策略允许使用指数数量的模拟步骤。
- 后门激活攻击:使用激活引导实施对大型语言模型的攻击以达到安全对齐
通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗 - 语言模型置信度评估与校准调查
评估语言模型预测的可靠性和置信度以及解决其与 AI 安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
- FigStep: 通过字体视觉提示破解大型视觉 - 语言模型
通过引入图像通道进行有害指令注入,再使用良性文本提示诱导视觉语言模型输出违反常见人工智能安全策略的内容,本研究证明了视觉语言模型容易受到越狱攻击的漏洞,彰显出视觉与文本模态之间的新型安全对齐的必要性。
- ICLR理解 Transformer 中的加法
这篇论文通过深入分析一个层次的 Transformer 模型在整数加法训练中的使用,揭示了该模型将任务划分为并行的、特定于数字的流,并对不同的数字位置采用不同的算法。研究还发现模型开始计算较晚但执行较快,识别并解释了一个稀有但损失较高的使用 - ASSERT:用于评估大型语言模型鲁棒性的自动化安全场景红队测试
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了 ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用 - 暗影对齐:篡改安全对齐语言模型的容易程度
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和 - RAIN: 语言模型可以自动对齐,无需微调
通过整合自评和倒带机制,本研究发现未对齐的大型语言模型(LLMs)可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference(RAIN),允许预训练的 LLM