大型语言模型中的风险与应对：评估关键威胁类别

Mar, 2024

大型语言模型中的风险与应对：评估关键威胁类别

Risk and Response in Large Language Models: Evaluating Key Threat Categories

Bahareh Harandizadeh, Abel Salinas, Fred Morstatter

TL;DR本文对大型语言模型（LLMs）中的风险评估问题进行了探讨，并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战，通过使用 Anthropic Red 团队的数据集，对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析，研究结果表明 LLMs 倾向于认为信息风险较少有害，并通过特殊开发的回归模型对此进行了确认，此外，研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格，强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。

Abstract

This paper explores the pressing issue of risk assessment in Large Language Models (LLMs) as they become increasingly prevalent in various applications. Focusing on how reward models, which are designed to fine-t

risk assessment large language models reward models information hazards ai safety measures

发现论文，激发创造

大型语言模型的安全风险分类

通过针对大型语言模型（LLM）存在的安全风险进行评估，本研究填补了当前研究的空白，并提出了一种基于提示的攻击风险分类方法，以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持，并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。

Nov, 2023

保护大型语言模型：威胁、漏洞和负责任的做法

对大型语言模型（LLMs）的安全与隐私问题进行了全面的研究，从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨，并提出了未来研究的有前景的方向，以增强 LLMs 的安全和风险管理。

Mar, 2024

大型语言模型系统的风险分类、缓解和评估基准

通过探索大型语言模型系统的四个关键模块，即接收提示的输入模块，基于丰富语料库的语言模型，用于开发和部署的工具链模块以及生成语言模型内容的输出模块，本文提出了一种综合分类方法，系统分析了每个模块可能涉及的潜在风险，并讨论了相应的缓解策略。此外，我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。

Jan, 2024

在高风险领域评估大型语言模型

高风险领域中的语言模型性能评估是一个重要问题，本研究对指导调优的语言模型进行深入分析，重点关注事实准确性和安全性，通过在法律和医学两个高风险领域的六个自然语言处理数据集上进行实验，发现目前语言模型存在的局限性，并强调了提高语言模型能力和改进领域特定指标的重要性，以及通过更人性化的方法来增强安全性和事实可靠性，研究结果对于适应高风险领域、履行社会义务并符合即将颁布的欧盟 AI 法案具有重要推动作用。

Nov, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023

RiskLabs：基于多源数据的大型语言模型预测金融风险

用人工智能在金融领域应用的一项新型框架 RiskLabs，通过整合各种金融数据和大语言模型来分析和预测金融风险。通过实证实验结果，我们展示了 RiskLabs 在金融市场的波动性和方差预测中的有效性，并讨论了大语言模型在这一领域中的关键作用。这些发现不仅对 AI 在金融领域的应用做出了贡献，也为在金融风险评估中应用大语言模型开启了新的途径。

Apr, 2024

语言模型的伦理和社会风险

本文旨在帮助构建与大规模语言模型相关的风险场景。我们总结了 LMs 可能面临的各种风险，如歧视、错误信息、自动化等，并提出了应对方法和未来研究方向。

Dec, 2021

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023