安全可靠的 LLM 检测器：实施、应用和局限性

Mar, 2024

安全可靠的 LLM 检测器：实施、应用和局限性

Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations

Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger...

TL;DR为了应对大规模语言模型的各种风险以及提供有效的人工智能治理，我们致力于创建和应用一套迅速、可靠的检测器模型，旨在识别各种有害输出，并探讨了其发展中的挑战和未来工作。

Abstract

large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data avai

large language models risks safety constraints detectors ai governance

发现论文，激发创造

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

LLbezpeky：利用大型语言模型进行漏洞检测

大规模语言模型 (LLM) 在检测安卓应用的漏洞方面表现出色，通过构建基于人工智能的工作流，能够帮助开发者识别和修复漏洞，并展示其有效性。实验证明，LLMs 在 Ghera 基准测试中能够准确标记不安全应用的案例达到 91.67%。此外，我们的实验还揭示了不同配置对真正阳性（TP）和假阳性（FP）率的影响。

Jan, 2024

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

LLMs 在非法目的中的使用：威胁、预防措施和漏洞

本文在探讨大语言模型的发展和分发迅速增长的背景下，关注其安全和安全相关威胁和漏洞的最新研究工作，并提供了已有的科学努力概述，以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作，希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。

Aug, 2023

多模态知识提取与分析中的 LLMs 在智能 / 安全关键应用中的应用

大型语言模型在最近几年取得了迅猛的进展，其能力正在不断加速，通过各种基准测试，其能力接近于人类的水平。由于存在未解决的脆弱性和限制，人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献，综合当前的研究进展，并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别，并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。

Dec, 2023

ShieldLM: 强化 LLM 为一致、可定制和可解释的安全检测器

该研究提出了一种基于大型语言模型的安全检测器 ShieldLM，它遵循通用的人类安全标准，支持可定制的检测规则，并提供其决策的解释。通过在包括 14,387 个查询 - 响应对的大型双语数据集上进行训练，研究表明，ShieldLM 在四个测试集上超越了强基准，展示了出色的可定制性和可解释性。除了在标准检测数据集上表现良好外，ShieldLM 还被证明在实际应用中作为先进语言模型的安全评估器具有有效性。通过 https://github.com/thu-coai/ShieldLM 发布的 ShieldLM 可以在各种安全标准下支持准确和可解释的安全检测，并为增强大型语言模型的安全性的持续努力做出贡献。

Feb, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

为负责任的信息访问设计包容性语言模型

使用大型语言模型（LLMs）进行日常任务时，应采取适当的措施以确保输出无偏见且安全。本研究引入了 “负责任的语言模型开发（ReDev）” 框架，以促进为所有用户开发公平、安全和稳健的 LLMs。我们还提出了一套独特提示类型的测试套件，以评估 LLMs 在公平性、安全性和稳健性等方面，确保生成的回应无害且没有偏见内容。我们通过测试套件评估了四个最先进的 LLMs：OPT、GPT-3.5、GPT-4 和 LLaMA-2，突显了在机器学习流程的每个阶段（包括数据筛选、训练和部署后）考虑公平性、安全性和稳健性的重要性。

Oct, 2023