通过信任建模和上下文学习为大型语言模型提供自适应护栏

Aug, 2024

通过信任建模和上下文学习为大型语言模型提供自适应护栏

Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning

Jinwei Hu, Yi Dong, Xiaowei Huang

TL;DR本研究解决了现有护栏方法未能考虑用户个体差异的问题，提出了一种自适应护栏机制，通过信任建模和上下文学习动态调节对敏感内容的访问。实验结果表明，该机制有效满足了不同用户的需求，相较于现有护栏在实用性上表现更优，同时能够更好地保护敏感信息和管理潜在风险内容。

Abstract

Guardrails have become an integral part of Large Language Models (LLMs), by moderating harmful or toxic response in order to maintain LLMs' alignment to human expectations. However, the existing guardrail methods do not consider different needs and access rights of individual users, an

发现论文，激发创造

TrustGPT：大型语言模型的信任度和责任性基准

本研究旨在通过引入TrustGPT，评价LLMs在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Jun, 2023

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

TrustLLM：大型语言模型的可信性

介绍了TrustLLM，这是一个关于LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流LLM的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对AI技术的信任。

Jan, 2024

追踪信誉动态：重新审视大型语言模型的预训练时期

通过对大型语言模型的早期预训练进行线性探测和互信息探测，本文揭示了预训练中大型语言模型在可靠性、隐私、有害性、公平性和稳定性等方面的潜力，为揭示预训练中的可信性建模进行了初步探索。

Feb, 2024

RigorLLM：大型语言模型抵御不良内容的弹性防护

RigorLLM是一种新颖的框架，通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合KNN和LLMs的基于数据增强的模型来高效有效地调节LLMs的有害和不安全输入和输出，从而提供了一种强大的有害内容调节解决方案。与现有基准如OpenAI API和Perspective API相比，RigorLLM不仅在检测有害内容方面表现出色，而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的LLMs的重要进展，为应对不断演进的数字威胁树立了新的内容调节框架标准。

Mar, 2024

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称“保障措施”或“防护栏”，已成为确保在既定边界内道德使用LLMs的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

LLM风险与AI防护栏的现状

大型语言模型( LLMs )的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署LLMs所面临的风险，并评估了目前实施防护和模型对齐技术的方法, 从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型LLMs的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护LLMs的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成(RAG)架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解LLMs的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保LLMs在实际应用中的安全和负责任使用。

Jun, 2024

LoRA-Guard：大型语言模型内容审核的参数高效护栏适应

LoRA-Guard是一种参数高效的防护栏适应方法，它通过LLMs和防护模型之间的知识共享提取语言特征，并使用低秩适配器适应内容调节任务，双路径设计防止生成任务性能降低。它在保持准确性的同时，有效降低参数开销，实现了设备上的内容调节。

Jul, 2024

HiddenGuard：具专业表示路由器的细粒度安全生成

本研究解决了大型语言模型在信息安全和人类价值对齐方面面临的挑战，尤其是目前基于拒绝策略的方法限制了模型的响应灵活性。HiddenGuard框架采用了细粒度的实时检测与修正机制，显著提高了有害内容的识别与处理能力，同时有效保持了模型信息回应的实用性。实验结果显示，该方法在安全内容生成中达到超过90%的F1分数。

Oct, 2024