基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

May, 2023

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation

Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong...

TL;DR本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

Abstract

large language models (LLMs) have exploded a new heatwave of AI, for their ability to engage end-users in human-level conversations with detailed and articulate answers across many knowledge domains. In response to their fast adoption in many industrial →

large language models safety trustworthiness verification and validation applications

发现论文，激发创造

视觉中可信大规模模型：调查

大型模型的快速进展在深度学习的各个领域中带来了显著的成绩，但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题，包括人类误用、易受攻击、内在问题和解释性，通过突出每个主题中的相应挑战、对策和讨论，希望读者能更好地理解该领域，促进大型模型与人类期望的一致性，使可信赖的大型模型成为人类社会的福祉而非灾难。

Nov, 2023

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

多模态知识提取与分析中的 LLMs 在智能 / 安全关键应用中的应用

大型语言模型在最近几年取得了迅猛的进展，其能力正在不断加速，通过各种基准测试，其能力接近于人类的水平。由于存在未解决的脆弱性和限制，人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献，综合当前的研究进展，并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别，并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。

Dec, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

关于在机器人中部署 LLMs/VLMs 的安全问题：凸显风险和脆弱性

通过检查最近在大型语言模型（LLMs）和视觉语言模型（VLMs）与机器人技术交叉领域的工作，我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子，并在三个重要的机器人框架上进行了实验，这些机器人框架集成了一个语言模型，包括 KnowNo VIMA 和 Instruct2Act，以评估它们对这些攻击的易感性。我们的实证研究结果显示出 LLM/VLM-robot 集成系统的一个显著的脆弱性：简单的对抗性攻击可以显著削弱 LLM/VLM-robot 集成系统的有效性。特别是，在提示性攻击下，我们的数据显示出了平均性能下降 21.2％，而在感知攻击下更为严重，达到 30.2％。这些结果强调了确保部署先进的 LLM/VLM 基础机器人系统的安全性和可靠性的关键需求。

Feb, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024