基于验证和验证的视角对大型语言模型的安全性和可信度进行调查
大型模型的快速进展在深度学习的各个领域中带来了显著的成绩,但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题,包括人类误用、易受攻击、内在问题和解释性,通过突出每个主题中的相应挑战、对策和讨论,希望读者能更好地理解该领域,促进大型模型与人类期望的一致性,使可信赖的大型模型成为人类社会的福祉而非灾难。
Nov, 2023
为了确保大型语言模型在实际应用中与人类意图保持一致,本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度,包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试,研究结果表明,总体上,更加符合人类意图的模型在整体可信度方面表现更好,但是模型对不同可信度类别的影响程度有所不同,这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导,理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。
Aug, 2023
大型语言模型在最近几年取得了迅猛的进展,其能力正在不断加速,通过各种基准测试,其能力接近于人类的水平。由于存在未解决的脆弱性和限制,人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献,综合当前的研究进展,并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别,并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。
Dec, 2023
该研究综述了大型语言模型的评估方法,并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法,以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣,以促进负责任发展和最大化社会利益,同时最小化潜在风险。
Oct, 2023
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
通过检查最近在大型语言模型(LLMs)和视觉语言模型(VLMs)与机器人技术交叉领域的工作,我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子,并在三个重要的机器人框架上进行了实验,这些机器人框架集成了一个语言模型,包括 KnowNo VIMA 和 Instruct2Act,以评估它们对这些攻击的易感性。我们的实证研究结果显示出 LLM/VLM-robot 集成系统的一个显著的脆弱性:简单的对抗性攻击可以显著削弱 LLM/VLM-robot 集成系统的有效性。特别是,在提示性攻击下,我们的数据显示出了平均性能下降 21.2%,而在感知攻击下更为严重,达到 30.2%。这些结果强调了确保部署先进的 LLM/VLM 基础机器人系统的安全性和可靠性的关键需求。
Feb, 2024
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过建立 MultiTrust 综合基准,本研究通过对 21 种现代多模态大型语言模型的广泛实验,揭示了一些之前未开发的可信度问题与风险,强调了多模态性引入的复杂性,并强调提升其可靠性的先进方法的必要性。
Jun, 2024