利用大型语言模型进行初步安全风险分析:一项关键任务案例研究
风险分析中,检查了不同模型的效果,发现 LLMs 的速度快且具有实际行动性,而 RAG-assisted LLMs 能够有效发现隐藏的风险,成为精确性需要的 FTMs 和全面性可行性需要的基本模型的有效补充。因此,专家可以在紧凑的时间内利用 LLMs 进行风险分析,同时避免不必要的开支。
Jun, 2024
在这项研究中,我们评估了大型语言模型(LLMs)分析历史软件供应链违规行为的能力。我们使用 LLMs 复制了 Cloud Native Computing Foundation (CNCF) 成员对 69 个软件供应链安全违规行为的手动分析,并根据四个维度开发了 LLMs 的提示:侵害类型、意图、性质和影响。我们报告了当源文章足够详细以便在手动分析员中形成共识时,LLMs 能够有效地描述软件供应链违规行为,但不能取代人工分析员。未来的工作可以提高 LLMs 在这个背景下的性能,并研究更广泛的文章和违规行为。
Aug, 2023
通过分析输入 - 输出对的关键特征,在商业 LLM 中针对 prompt 反向窃取设计了一种新的攻击框架,名为 PRSA,从而构成了一个严重的潜在威胁。
Feb, 2024
本文介绍了 SecurityLLM,它是一个旨在检测网络安全威胁的预训练语言模型,其中 SecurityBERT 作为网络威胁检测机制,而 FalconLLM 则是一种事件响应和恢复系统,实验结果表明,我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。
Jun, 2023
通过针对大型语言模型(LLM)存在的安全风险进行评估,本研究填补了当前研究的空白,并提出了一种基于提示的攻击风险分类方法,以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持,并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。
Nov, 2023
通过探索大型语言模型系统的四个关键模块,即接收提示的输入模块,基于丰富语料库的语言模型,用于开发和部署的工具链模块以及生成语言模型内容的输出模块,本文提出了一种综合分类方法,系统分析了每个模块可能涉及的潜在风险,并讨论了相应的缓解策略。此外,我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。
Jan, 2024
使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能,结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数,比 InstructABSA 提高了 5.7%,但模型参数增加了 1000 倍,推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时,我们的研究结果表明,在零痕迹和少痕迹环境中,详细提示可以提高性能,但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。
Oct, 2023
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结果表明 LLMs 倾向于认为信息风险较少有害,并通过特殊开发的回归模型对此进行了确认,此外,研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格,强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。
Mar, 2024
本文介绍了一种名为 “Low Rank Adaptation” 的 PEFT 方法,并在临床对话摘要任务中展示了其评估结果,这种方法与端到端的调优效果相当。
Jul, 2023
该研究探讨使用大型语言模型(LLMs)分析 Reddit 用户的文本评论,旨在实现两个主要目标:首先,找出支持预定义心理评估自杀风险的关键摘录;其次,总结材料以证实预先分配的自杀风险水平。该研究仅限于在本地运行的 “开源” LLMs 的使用,从而增强数据隐私。此外,该研究优先考虑计算要求低的模型,使其可供具有有限计算预算的个人和机构使用。该实施策略仅依靠精心设计的提示和语法来指导 LLM 的文本补全。尽管简单,评估指标显示出卓越结果,使其成为一种重要的关注隐私和成本效益的方法。这项工作是 2024 年计算语言学和临床心理学(CLPsych)共享任务的一部分。
Feb, 2024