大型语言模型的因果可解释弹道
大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署 LLMs 所面临的风险,并评估了目前实施防护和模型对齐技术的方法,从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护 LLMs 的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保 LLMs 在实际应用中的安全和负责任使用。
Jun, 2024
在大语言模型(LLMs)领域中,开发一个强健的安全机制,俗称 “保障措施” 或 “防护栏”,已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述,讨论了这种关键机制的当前状态,探讨了其主要挑战,并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。
Jun, 2024
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
通过使用一组检测器,我们提出了 “LLMGuard”,这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具,以应对大型语言模型在企业环境中带来的新机遇和挑战。
Feb, 2024
RigorLLM 是一种新颖的框架,通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出,从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比,RigorLLM 不仅在检测有害内容方面表现出色,而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展,为应对不断演进的数字威胁树立了新的内容调节框架标准。
Mar, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024
我们的研究引入了一个新的安全框架,利用多智能体大语言模型(LLMs)来保护自动驾驶车辆的敏感信息,同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面,并对这些驾驶提示进行了问答测试,成功地证明了该框架的有效性。
Jun, 2024