互动伦理学:减轻 LLM 中的安全威胁
本文在探讨大语言模型的发展和分发迅速增长的背景下,关注其安全和安全相关威胁和漏洞的最新研究工作,并提供了已有的科学努力概述,以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作,希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。
Aug, 2023
本研究探讨了人工智能领域中大型语言模型(LLMs)的伦理问题。它讨论了 LLMs 和其他人工智能系统所面临的常见伦理挑战,如隐私和公平,以及 LLMs 特有的伦理挑战,如幻觉、可验证的问责和解码审查复杂性。该研究强调了解决这些复杂性的必要性,以确保问责制、减少偏见并增强 LLMs 在塑造信息传播方面所扮演的重要角色的透明度。它提出了缓解策略和 LLM 伦理的未来发展方向,主张跨学科合作。该研究建议针对特定领域制定伦理框架,并根据不同环境调整动态审计系统。这一路线图旨在引导负责任地开发和整合 LLMs,设想一个以伦理考虑为基础的人工智能进步的未来社会。
May, 2024
对大型语言模型(LLMs)的安全与隐私问题进行了全面的研究,从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨,并提出了未来研究的有前景的方向,以增强 LLMs 的安全和风险管理。
Mar, 2024
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024
通过引入多方面的方法,包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物,我们解决了大型语言模型在道德、安全和隐私方面的挑战,并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架,确保了更安全的用户体验并增加了对 AI 技术的信任。
Jan, 2024
在本研究中,我们探讨了大型语言模型(LLMs)在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力,但它们可能被各种复杂的方法欺骗,产生有害或不道德的内容,其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上,即 LLMs 在生成以指令为中心的响应(如伪代码、程序或软件片段)与普通文本相比,会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题,该数据集包含应以文本和以指令为中心的格式(如伪代码)作答的复杂查询,旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs,包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B,并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言,我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标,我们还研究了使用 ROME 技术进行模型编辑的影响,这进一步增加了产生不良内容的倾向。具体而言,要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。
Feb, 2024
现在普遍存在大型语言模型在对话应用中的应用。然而,它们被滥用来生成有害回复的风险引起了严重的社会关注,并引发了关于大型语言模型对话安全的最新研究。因此,在这项调查中,我们提供了最近研究的综述,涵盖了大型语言模型对话安全的三个关键方面:攻击、防御和评估。我们的目标是提供一个结构化的概述,以增进对大型语言模型对话安全的理解,并鼓励对这个重要主题进行进一步的研究。为了方便参考,我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。
Feb, 2024
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
在本文中,我们系统地分析了 LLM 系统的安全性,通过建立信息流及其在 LLM 内部和 LLM 与其他对象之间的一致性约束,将 LLM 系统的攻击面分解为三个关键部分:多层安全分析,约束存在性分析和这些约束的鲁棒性分析。通过对最新的 LLM 系统 OpenAI GPT4 的多层和多步骤分析,我们发现了不仅仅存在于 LLM 模型本身,还包括与其他组件整合的安全问题。我们发现尽管 OpenAI GPT4 已经设计了多重安全约束来提高其安全性,但这些安全约束仍然容易受到攻击。为了进一步展示我们发现的漏洞的现实威胁,我们构建了一个端到端攻击,黑客可以非法获取用户的聊天历史,而无需操纵用户的输入或直接访问 OpenAI GPT4。
Feb, 2024