NeMo Guardrails: 可控和安全的LLM应用程序的工具包,带有可编程Rail
本文研究使用GPT-4的训练数据和蒸馏方法,探索了一种称为CONSCENDI的守护模型,用于监控虚拟助手的输出,以保持其输出符合设计规则,提供了一种新方法以生成更多样化的违规训练数据。研究表明,使用CONSCENDI得到的守护模型比基础模型表现更好。
Apr, 2023
我们引入了Llama Guard,一种基于LLM的输入输出保护模型,针对人工智能与人类对话应用场景设计。我们的模型包含一种安全风险分类法,用于对LLM提示中一组特定安全风险进行分类(即提示分类)。此分类法还用于对LLM生成的响应进行分类(即响应分类)的过程。为了进行提示和响应的分类,我们精心收集了高质量的数据集。Llama Guard是一个在我们收集的数据集上进行指令调整的Llama2-7b模型,尽管数据量较少,但在现有基准测试中表现出色,如OpenAI评估数据集和ToxicChat,其表现与当前可用的内容审查工具相匹配或超过。Llama Guard作为一种语言模型,执行多类别分类并生成二进制决策分数。此外,Llama Guard的指令微调允许定制任务和调整输出格式。此功能增强了模型的能力,例如使得能够调整分类法类别以适应特定用例,并促进零射击或少射击提示与多样化的分类法输入的配合。我们提供Llama Guard模型权重,并鼓励研究人员进一步开发和调整,以满足人工智能安全社区不断发展的需求。
Dec, 2023
本文介绍了一个新颖的大型语言模型(LLM),在混合主动对话环境中对话,并通过制定规程计划引导用户,并在需要时激活安全保障措施。实验结果表明,该模型取得了2.1倍的改进,并在未知领域中显示出良好的泛化能力。
Feb, 2024
在大语言模型(LLMs)领域中,开发一个强健的安全机制,俗称“保障措施”或“防护栏”,已成为确保在既定边界内道德使用LLMs的必要措施。本文通过系统性文献综述,讨论了这种关键机制的当前状态,探讨了其主要挑战,并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。
Jun, 2024
大型语言模型( LLMs )的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署LLMs所面临的风险,并评估了目前实施防护和模型对齐技术的方法, 从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型LLMs的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护LLMs的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成(RAG)架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解LLMs的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保LLMs在实际应用中的安全和负责任使用。
Jun, 2024
本研究解决了现有大型语言模型(LLMs)在多语言环境中处理毒性内容的有效性问题。通过引入一个涵盖七个数据集和十多种语言的综合多语言测试套件,研究评估了先进保护措施的性能及其针对新型越狱技术的韧性。研究发现现有保护措施在处理多语言毒性方面仍然无效,并缺乏对越狱提示的鲁棒性,旨在识别其局限性,以构建更可靠的多语言LLMs。
Oct, 2024
本研究针对大型语言模型在科学研究中的应用,探讨了其在科学诚信和可信度方面存在的关键缺陷。提出了一套应对科学领域特定挑战的护栏指南框架,涵盖可信度、伦理与偏见、安全性和法律等维度,旨在为科学需求提供有效的解决方案。研究结果可能显著提升科学研究中的大型语言模型使用的可靠性与安全性。
Nov, 2024
本研究解决了大型语言模型在非目标使用中面临的挑战,现有防护措施存在误报率高和适应性不足的问题。通过定义问题空间并生成多样化的提示,构建了合成数据集,以提升防护措施的有效性,结果表明新方法优于传统启发式方法。此外,研究还开源了合成数据集和防护模型,为预生产环境中的防护开发和未来研究提供支持。
Nov, 2024
本研究解决了大语言模型(LLMs)在企业应用中对安全监控和控制的需求缺乏高效解决方案的难题。论文提出了一种新的方法,采用微调轻量级架构Sentence-BERT,极大降低了模型规模,同时在AEGIS安全基准测试中保持了可比性能。研究结果表明,这种方法不仅减少了延迟和维护成本,还为安全部署提供了可扩展的解决方案。
Nov, 2024