TorchOpera:一个复合人工智能系统用于 LLM 安全
我们的研究通过引入以 LLM 为基础的问答系统,结合外部知识数据库,提高了模型的理解和响应准确性,有效地总结事故报告并提供相关建议,从而将 LLM 的应用拓展到安全工程领域,并为自动化智能系统的未来发展树立了先例。
Dec, 2023
大型语言模型的安全性是一个重要问题,本研究提出了 Adversarial Prompt Shield(APS)这个轻量级模型,能够有效检测和抵御对抗抓取;同时,我们还引入了自动生成对抗训练数据集的新策略,命名为 Bot Adversarial Noisy Dialogue(BAND)数据集,以提高安全分类器的鲁棒性。经过评估,我们的分类器成功率提高了 60%,为下一代更可靠和韧性更强的对话代理铺平了道路。
Oct, 2023
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024
通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示,广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。
Feb, 2024
LLMSafeGuard 是一个轻量级框架,通过将外部验证器集成到束搜索算法中,在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能,减少了 LLM 输出的有毒评分,并减小了版权内容的重复率。此外,LLMSafeGuard 的上下文选择策略降低了推断时间,并提供可调整参数来平衡效果和效率。
Apr, 2024
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。
May, 2024
通过定制化的大型语言模型 (LLM) 代理,采用提示工程、启发式推理和检索增强生成的元素,以保持结构化信息,我们提出了一种高效的混合策略,利用 LLM 进行安全分析和人工智能与人类的协同设计,以提高软件工程和安全工程中的生成式 AI 的质量要求,并确保人类对生成式 AI 提供的建议负责,通过图形表述作为系统模型的中间表示,促进了 LLM 和图形之间的交互,以简化的自动驾驶系统为案例说明了我们的方法。
Apr, 2024
我们的研究旨在针对恶意文件开发强大的大型语言模型(LLMs)防御机制,并通过指导调整来提高它们处理危险内容的能力,同时维持其效用和安全之间的平衡。在我们的实证结果中,LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外,加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡,其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。
May, 2024
基于大型语言模型的原型管道可以在每次更新后自动细化和分解需求,还能对需求数据集进行审查,找出冗余或矛盾的需求,该研究通过多个迭代的设计科学,让不同公司的专家从定量和定性两个方面评估每个周期,最终在一个案例公司中实施了原型,并由负责团队评估其效率。
Mar, 2024
利用大型语言模型(LLM)所提供的世界知识和普遍推理能力,我们提出了一种基于线性时态逻辑(LTL)的可查询安全约束模块,用于在协作环境中部署 LLM 代理,并通过自然语言到时态约束编码、安全违规推理、不安全行为修剪等功能,实现了显式指示禁止行为、评估机器人对限制的理解,并确保其合规性。实验证明我们的系统可以严格遵守安全约束并能很好地适用于复杂的安全约束,具备实际应用潜力。
Sep, 2023