Jun, 2024

个性化语言模型中的安全性 - 效用权衡探索

TL;DR大型语言模型(LLMs)在日常应用中变得越来越普遍,因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题,也就是当 LLMs 根据用户的身份进行个性化设置时,它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现,不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异,这取决于用户的身份。最后,我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。