保障大型语言模型的研究综述
大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署 LLMs 所面临的风险,并评估了目前实施防护和模型对齐技术的方法,从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护 LLMs 的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保 LLMs 在实际应用中的安全和负责任使用。
Jun, 2024
LLMSafeGuard 是一个轻量级框架,通过将外部验证器集成到束搜索算法中,在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能,减少了 LLM 输出的有毒评分,并减小了版权内容的重复率。此外,LLMSafeGuard 的上下文选择策略降低了推断时间,并提供可调整参数来平衡效果和效率。
Apr, 2024
通过使用一组检测器,我们提出了 “LLMGuard”,这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具,以应对大型语言模型在企业环境中带来的新机遇和挑战。
Feb, 2024
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。
May, 2024
利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题,包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测,实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。
Oct, 2023
RigorLLM 是一种新颖的框架,通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出,从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比,RigorLLM 不仅在检测有害内容方面表现出色,而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展,为应对不断演进的数字威胁树立了新的内容调节框架标准。
Mar, 2024
本文介绍了 MLLMGuard,一个针对 MLLMs 的多维安全评估套件,包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估,结果表明 MLLMs 在安全和责任方面仍有很长的路要走。
Jun, 2024
为了提高语言生成模型的安全性,我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$,通过使用细致标注的数据集和多种方法来识别潜在的不安全内容,并生成无害的变体。经过对多个数据集的测试,我们观察到不安全内容的生成显著减少,同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程,并通过社区参与来推动 LMM 的负责任推进。
Apr, 2024