确保安全和高质量的输出：面向语言模型的指南库方法

ACLMar, 2024

确保安全和高质量的输出：面向语言模型的指南库方法

Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models

Yi Luo, Zhenghao Lin, Yuhao Zhang, Jiashuo Sun, Chen Lin...

TL;DR为了解决大型语言模型存在的偏见内容生成和隐私问题，研究引入了 Guide-Align 方法，该方法通过安全训练模型识别潜在风险并建立指南和模型库，然后用于新输入的相关指导，以确保安全和高质量输出，还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量，尤其是在 13 亿参数下，优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。

Abstract

large language models (LLMs) exhibit impressive capabilities but also present risks such as biased content generation and privacy issues. One of the current alignment techniques includes principle-driven integrat

large language models alignment techniques guide-align safety-trained model fine-tuning

发现论文，激发创造

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

面向医学领域的安全对齐大型语言模型

本文首次对医学 LLMs 进行了安全评估，讨论了医学 LLMs 的安全和对齐性，并展示了微调作为有效的缓解策略，希望这项工作能够启发未来的研究，并开发出更多的缓解策略，以减少医学 LLMs 在医学领域中的潜在风险。

Mar, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

构建安全负责的大语言模型 -- 一个综合框架

为了提高语言生成模型的安全性，我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$，通过使用细致标注的数据集和多种方法来识别潜在的不安全内容，并生成无害的变体。经过对多个数据集的测试，我们观察到不安全内容的生成显著减少，同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程，并通过社区参与来推动 LMM 的负责任推进。

Apr, 2024

模型合并与安全对齐：一枚坏模型败坏一群模型

将多个专家语言模型合并成单一多功能模型的成本效益技术中，当前方法经常忽视了合并过程中安全对齐的重要性，导致模型高度不对齐。本研究调查了模型合并对对齐的影响，评估了几种常见的模型合并技术，证明现有方法不仅传递了领域专业知识，还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题：(i) 生成合成的安全性和领域特定数据，和 (ii) 将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样，我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明，在合并过程中整合与对齐相关的数据的有效性，产生了在领域专业知识和对齐度方面都优秀的模型。

Jun, 2024