不要想粉色大象！

CVPRApr, 2024

Do not think pink elephant!

Kyomin Hwang, Suyoung Kim, JunHoo Lee, Nojun Kwak

TL;DR通过分析近期的大型模型，本文展示了它们与人类智能共享的 “白熊现象” 的脆弱性，并提出了基于提示的攻击方法和认知治疗技术启发的防御策略，成功地减轻了攻击效果高达 48.22%。

Abstract

large models (LMs) have heightened expectations for the potential of general AI as they are akin to human intelligence. This paper shows that recent large models such as stable diffusion and →

large models stable diffusion dall-e3 white bear phenomenon prompt-based attack method

发现论文，激发创造

反对虚假的 AI 夸大宣称的立场文件

人类有倾向在周围的物体中看到类似于 “人” 的特质。这种行为被称为拟人化，并且这种拟人化趋势也出现在机器学习中，其中声称在大型语言模型中感知到类似于人类智能的特质。本立场论文通过考虑专业激励、人类偏见和一般的方法论设置，讨论了当前对人工通用智能（AGI）的追求与将人类特质过度归因于大型语言模型之间的关系。通过几项实验，我们证明在潜在空间中发现可解释的人类模式并不足为奇。另外，考虑到媒体中对人工智能的普遍描绘，我们呼吁学术界在解释和交流人工智能研究结果时要格外小心，并且要对学术诚信原则有更高的意识。

Feb, 2024

论大型语言模型

本文旨在提倡对大型语言模型及其相关系统的实际工作进行重新审视，追求更高的科学精度以引领关于人工智能的哲学探索和公众话语。

Dec, 2022

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3 在防御我们的攻击方面表现最佳，相比之下 GPT-3.5 和 GPT-4 则较差；3）当以一种偏见类型进行教授时，LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式，并有助于评估 LLMs 的潜在伦理风险。

Jun, 2024

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

大型章魚是否仍會放大報告偏差？來自典型顏色判斷的證據

本研究探讨了较大语言模型（LLMs）中的颜色方面的常识表达是否存在报道偏差，结果表明相对于较小的语言模型（如 RoBERTa，GPT-2），LLMs 在确定对象的典型颜色方面表现更好，更接近于人类判断。

Sep, 2022

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024

大型语言模型在心理健康咨询中的挑战

全球精神健康危机，人工智能和大型语言模型能够支持或提供心理咨询，但其应用也引发了准确性、有效性、可靠性的担忧。本文研究了大型语言模型在心理咨询中面临的主要挑战，包括模型错觉、可解释性、偏见、隐私和临床有效性，并探讨了解决这些挑战的潜在方案，以改进心理健康护理。

Nov, 2023

AI 法案与大型语言模型（LLMs）：关于重要问题和隐私影响时需要人类和道德监督

人工智能系统和大型语言模型的迅猛发展使得有必要评估它们在隐私保护、个人数据保护以及伦理层面上对最弱和最脆弱群体可能产生的风险和影响。本研究聚焦于人类监督、伦理监督和隐私影响评估。

Mar, 2024