LoRA-Guard：大型语言模型内容审核的参数高效护栏适应

Jul, 2024

LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models

Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay

TL;DRLoRA-Guard是一种参数高效的防护栏适应方法，它通过LLMs和防护模型之间的知识共享提取语言特征，并使用低秩适配器适应内容调节任务，双路径设计防止生成任务性能降低。它在保持准确性的同时，有效降低参数开销，实现了设备上的内容调节。

Abstract

guardrails have emerged as an alternative to safety alignment for content moderation of large language models (LLMs). Existing model-based