个性化语言模型中的安全性 - 效用权衡探索

Jun, 2024

个性化语言模型中的安全性 - 效用权衡探索

Exploring Safety-Utility Trade-Offs in Personalized Language Models

Anvesh Rao Vijjini, Somnath Basu Roy Chowdhury, Snigdha Chaturvedi

TL;DR大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Abstract

As large language models (LLMs) become increasingly integrated into daily applications, it is essential to ensure they operate fairly across diverse user demographics. In this work, we show that LLMs suffer from persona

language models personalization bias safety utility mitigate

发现论文，激发创造

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

大语言模型时代的以人为中心的隐私研究

基于大型语言模型的系统，在用户隐私方面存在问题，需要更多关注人类隐私问题的研究，包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响，以及赋予终端用户对个人数据的拥有权的工具设计，在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论，为基于大型语言模型的系统中的隐私问题制定议程。

Feb, 2024