- 对手可以滥用安全模型的组合
开发者试图评估人工智能系统在发布之前是否会被对手滥用,本研究表明,仅对单个模型进行滥用测试是不充分的,对手可以即使每个单独的模型都是安全的情况下,组合模型进行滥用。研究了两种分解方法:手动分解和自动分解,结果显示对手可以使用模型组合更高频率 - ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑
我们提出了一种简单而有效的无需训练的方法,ConceptPrune,通过首先确定在预训练模型中负责生成不良概念的关键区域,从而以权重修剪的方式便捷地实现概念去学习。实验证明,我们的方法能够高效擦除多个目标概念,仅修剪总权重的约 0.12%, - 生成型人工智能中数据的知识产权保护方法评述
大型生成型人工智能(GAI)模型可以生成逐渐无法区分是否人工生成的文本、图片、声音和其他形式的媒体。本文研究了训练数据的知识产权问题,重点关注生成模型的特性,探讨可能导致潜在知识产权侵犯的滥用行为,并提出了一个分类体系,对 GAI 中保护数 - 透过上下文学习揭示基础大型语言模型的滥用潜力
大型语言模型的开源加速应用开发、创新和科学进步,但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明,基础语言模型能够有效地解释和执行恶意指令,此漏洞无需特殊知识或训练即可被操纵,强调了 - AI 代码生成器与安全:友还是敌?
人工智能代码生成器在软件安全研究中取得了新的进展,我们回顾了人工智能代码生成器在安全领域的应用案例,并引入了一个评估基准。
- 基于生成式人工智能的闭环功能磁共振成像系统
提出了 DecNefGAN 框架,它结合了生成对抗系统和神经强化模型,用于探索人类大脑对生成 AI 潜在影响的反应和抵抗方式。
- 提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性:一项综合分析
我们提供了对大语言模型的生成文本影响的全面分析,并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题,我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese,将一对文本作为查 - 人本可信的自动决策系统
自动决策系统(ADS)在各个领域和职业中已经普遍存在,以提高性能。然而,这种广泛采用引入了潜在风险,包括 ADS 的滥用。本研究论文对数字化、数字转型和 ADS 在当代社会和未来环境中的应用所涉及的影响、区别和伦理考虑进行了全面的研究。强调 - 大型语言模型的出现如何影响科学实践?
大型语言模型越来越多地被纳入科学工作流程中,但我们还没有完全掌握这种整合的影响。大型语言模型的出现应该如何影响科学实践?本观点文章邀请了四组不同的科学家来思考这个问题,分享他们的观点并进行辩论。
- MMA-Diffusion:多模态对抗扩散模型
近年来,文本到图像(T2I)模型取得了显著进展并广泛应用,然而这一进展无意中开辟了潜在的滥用途径,尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion,这是一个对 T2I 模型安全性构成严重和真实威胁的框架,通过有效 - BadLlama: 从 Llama 2-Chat 13B 中廉价移除安全微调
Llama 2-Chat 的模型权重的公开释放可能导致忽略其安全调整,从而使其能力被恶意利用,并且为了预防未来模型造成的伤害,AI 开发人员应该解决模型权重公开释放带来的威胁。
- EMNLP用火攻火:LLM 在制作和检测隐蔽虚假信息中的双重作用
我们提出了一种新型的 “以毒攻毒” 策略,利用现代大型语言模型的生成和推理能力来对抗人类撰写和大型语言模型生成的虚假信息。通过使用 GPT-3.5-turbo 合成真实和具有欺骗性的大型语言模型生成内容,并结合上下文语义推理技术判断真实和虚 - 探讨 AI 生成文本检测的可能性与不可能性:一项调查
通过综述当前研究的展望和限制,本文对大型语言模型的滥用、人工智能生成文本的检测框架以及相关的开放问题进行了全面的讨论和概述。
- EMNLPAI 生成文本检测器的可靠性评估框架:基于迂回软提示
通过设计一种新的方法,我们评估了高性能检测器可靠性,该方法使用了通用的躲避型软提示,通过多个预训练语言模型的写作任务进行广泛实验,以评估这些躲避型软提示对最先进检测器的躲避效果。
- 开源大型语言模型的安全性:对齐是否真的能防止滥用?
通过直接操纵开放源代码的大型语言模型的生成过程,我们展示了它们容易被引导生成不受欢迎的内容,包括有害或有偏见信息甚至私人数据,这表明需要更先进的开源语言模型缓解策略。
- AI 生成文本检测工具的实证研究
本研究旨在创建一个多领域数据集,以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统,包括 “GPTkit”,“GPTZero”,“Originality”,“Sapling”,“Wri - 利用潜在指纹对图像生成模型进行归属
本文研究了使用潜在语义维度作为指纹的方法,以分析设计变量对准确性和质量之间的权衡的影响。与当前 SOTA 相比,我们的方法需要最少的计算量,并且更适用于大规模模型。我们使用 StyleGAN2 和潜在扩散模型来证明我们的方法的有效性。
- ChatGPT:不仅是大规模欺骗武器,人类中心人工智能(HCAI)的伦理挑战和应对
本文探讨了使用 ChatGPT 作为生成 AI 所引起的道德问题,并基于人性化的人工智能(HCAI)框架提出了应对方法。使用 HCAI 框架来确保可靠、安全、值得信赖的人工智能,以减轻 ChatGPT 的误用或滥用,并推荐最佳使用(创意写作 - 保护社会免受 AI 误用:何时限制 AI 能力是必要的?
人工智能(AI)系统将越来越常被用于造成伤害,为了防止对 AI 的一些错误使用,本文提出了一种减少 AI 误用的干预分类法,重点在于对于误用所需的特定步骤(误用链)进行干预以及确定是否需要此干预。
- 科学知识的攻守平衡:发布 AI 研究是否减少其被滥用的可能性?
本研究针对人工智能 (AI) 研究的潜在滥用问题,探讨了科学研究对于保护和滥用 AI 技术之间的平衡关系,并论述了存在于 AI 领域内的软件漏洞披露问题和 AI 研究之间的差异,最终提出了需要寻求特定挑战的政策建议。