注释对齐：比较 LLM 和人工注释的对话安全性

Jun, 2024

注释对齐：比较 LLM 和人工注释的对话安全性

Annotation alignment: Comparing LLM and human annotations of conversational safety

Rajiv Movva, Pang Wei Koh, Emma Pierson

TL;DR在研究中，我们通过对标注的一致性来探讨 LLMs 与人类安全感知的程度。我们利用最近的 DICES 数据集，在该数据集中，350 个对话被 10 个人种 - 性别群体的 112 名标注者进行了安全性评级。GPT-4 与平均标注者评级的皮尔逊相关系数达到 0.59，高于标注者之间的平均相关系数（0.51）。通过更大的数据集，我们表明需要进一步判断 GPT-4 在与不同人群之间的相关性上是否存在差异。此外，组内存在相当大的相关性个体差异，表明种族和性别不能完全捕捉到协作差异。最后，我们发现 GPT-4 无法预测某个人群比另一个人群认为对话更不安全的情况。

Abstract

To what extent to do llms align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which <

llms safety annotation alignment dices dataset demographic groups

发现论文，激发创造

GPT-4 太聪明了，不安全：通过密码与 LLMs 进行隐秘聊天

通过 CipherChat 框架评估 ChatGPT 和 GPT-4，发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐，证明了开发非自然语言安全对齐的必要性，同时提出了一种新颖的 SelfCipher 方法，在几乎所有情况下表现优于现有的人工密码。

Aug, 2023

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

多语言融合：LLM 安全对齐评估与语言混合

本研究介绍了一种混合语言查询 - 回复方案，名为多语言融合，用于评估各种最先进的 LLMs（例如 GPT-4o、GPT-3.5、Llama3）在复杂的多语言环境下的安全对齐性。研究结果表明，没有经过精心制作的提示模板，多语言融合显著放大了恶意查询的危害，导致 LLMs 在安全对齐方面的绕过率显著增加。此外，多语言融合的性能在内在语言属性上有显著差异，不同形态和不同语系的语言更容易规避安全对齐。这些发现强调了在复杂的多语言环境下评估 LLMs 并开发相应的安全对齐策略以适应其优越的跨语言泛化能力的必要性。

Jul, 2024

个性化语言模型中的安全性 - 效用权衡探索

大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Jun, 2024

OpenAssistant Conversations -- 大型语言模型对齐的民主化

研究大规模语言模型的发布与使用，利用调整技术进行优化以改善使用性，此文介绍 OpenAssistant Conversations 数据库的发布，使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件 OpenAssistant。相对于 ChatGPT，OpenAssistant 的答复被用户更青睐，其发布的代码和数据完全遵循宽松许可证，可供研究者使用。

Apr, 2023

ChatGPT-4 在使用零样本学习对政治 Twitter 信息进行注释方面胜过专家和众包工作者

本文研究了大型语言模型 ChatGPT-4 在 Twitter 文本分析任务中对发布者政治意向分类的精度、可靠性和偏差，并结论该模型精度更高、可靠性更高、偏差相等或更低，从而证明了该模型在社会科学中的巨大影响。

Apr, 2023

在眼科中对大型语言模型（LLM）人工智能聊天机器人进行微调并使用 GPT-4 进行 LLM 评估

通过与人类医学专家的对齐评估，评估 GPT-4 对由经过微调的 LLM 聊天机器人生成的与眼科相关的患者问题回答的准确性，结果显示 GPT-4 评估在临床一致性方面具有显著优势，有潜力简化 LLM 应用于医疗健康领域的临床评估，提供一种有效自动的评估方式来协助未来 LLM 应用的验证。

Feb, 2024

R-Judge：LLM 代理程序的安全风险意识基准测试

通过评估 R-Judge，本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试，对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%，而人类得分为 89.38%，显示了提高语言模型对风险意识的潜力。此外，利用风险描述作为环境反馈显著提高了模型的性能，揭示了突出的安全风险反馈的重要性。最终，通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

Jan, 2024