LLM 的在线安全分析：基准、评估和前进路径

Apr, 2024

LLM 的在线安全分析：基准、评估和前进路径

Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward

Xuan Xie, Jiayang Song, Zhehua Zhou, Yuheng Huang, Da Song...

TL;DR利用一个全面评估的在线安全分析方法基准，本研究揭示了现有在线安全分析方法的优势和局限性，为选择最合适的方法提供了有价值的见解，并探索了将多种方法相结合以提高在线安全分析效果的潜力。

Abstract

While large language models (LLMs) have seen widespread applications across numerous fields, their limited interpretability poses concerns regarding their safe operations from multiple aspects, e.g., truthfulness

large language models interpretability online safety analysis benchmark hybridization methods

发现论文，激发创造

InSaAF：通过准确性和公平性加强安全性 | LLM 是否准备好进入印度法律领域？

近年来，语言技术和人工智能的最新进展在法律领域提出了众多语言模型，从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型（LLMs）在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准，即加权法律安全评分（$LSS_{eta}$），综合了 LLM 的公平性和准确性。我们通过考虑 LLM 在二元法定推理任务中的性能以及在印度社会的各个不平等因素上的公平展现来评估 LLMs 的安全性。LLaMA 和 LLaMA--2 模型的任务性能和公平性得分表明，所提出的 $LSS_{eta}$ 度量标准可以有效决定模型在法律领域中的安全使用准备性。我们还提出了利用专门的法律数据集进行微调流程的方法，以减轻偏见并提高模型的安全性。对 LLaMA 和 LLaMA--2 模型的微调流程提高了 $LSS_{eta}$，提高了它们在印度法律领域中的可用性。我们的代码已公开发布。

Feb, 2024

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

多模态知识提取与分析中的 LLMs 在智能 / 安全关键应用中的应用

大型语言模型在最近几年取得了迅猛的进展，其能力正在不断加速，通过各种基准测试，其能力接近于人类的水平。由于存在未解决的脆弱性和限制，人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献，综合当前的研究进展，并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别，并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。

Dec, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

LLM 会话安全的攻击、防御和评估：一项调研

现在普遍存在大型语言模型在对话应用中的应用。然而，它们被滥用来生成有害回复的风险引起了严重的社会关注，并引发了关于大型语言模型对话安全的最新研究。因此，在这项调查中，我们提供了最近研究的综述，涵盖了大型语言模型对话安全的三个关键方面：攻击、防御和评估。我们的目标是提供一个结构化的概述，以增进对大型语言模型对话安全的理解，并鼓励对这个重要主题进行进一步的研究。为了方便参考，我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。

Feb, 2024

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

May, 2023