大型语言模型中出现的欺骗能力
大型语言模型(LLMs)是自我监督的预训练模型,可适应广泛的自然语言任务,但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性,即它们表现出的智能实际上是镜像了面试官的智能,它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法,以实现人工智能的普遍自主权。
Jul, 2022
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
通过评估 GPT-4,一个尖端的大型语言模型,在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力,它未展现出之前接触过这些隐喻的迹象,但提供了详细而深刻的解释,被盲审的人员(不知道涉及 AI 模型的事实)将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释,这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。
Aug, 2023
这篇研究批判性地探究了人工智能欺骗的复杂领域,集中研究了大型语言模型的欺骗行为。目标是阐明这一问题,审查相关的论述,并深入探讨其分类和影响。对 AI 安全峰会 2023 和 LLMs 进行了评估,并强调了它们欺骗行为背后的多维偏见。文献综述包括了四种分类的欺骗行为:战略欺骗、模仿、谄媚和不忠诚的推理,以及它们所带来的社会影响和风险。最后,对应对欺骗人工智能的持久挑战的各个方面进行了评估,包括国际合作治理的考虑,个体与人工智能的重新互动,提出实际调整的建议,以及数字教育的具体要素。
Feb, 2024
利用大型语言模型的自然语言处理是人工智能研究的一个繁荣领域。虽然神经网络已经证明在基于模式识别的游戏和实际领域中可以超越人类,但过度依赖 LLMs 会带来严重的风险,其中包括被用于生产虚假信息。这也引发了新的伦理挑战和各种类型的欺诈。
Feb, 2023
近期,大型语言模型(LLMs),如 GPT-4,在自然语言处理方面取得了显著进展并接近人工通用智能。然而,本研究对 GPT-4 和其他 LLMs 进行评估,评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现,无论是什么类型的陈述和提示技术,LLMs 与人类之间存在显著的陈述一致性。然而,LLMs 系统地高估了无意义陈述的深度,除了 Tk-instruct 外,它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类,而非思维链式的提示将 LLMs 的评分远离人类。此外,本研究揭示了强化学习来自人类反馈所引发的潜在偏见,即高估陈述的深度。
Oct, 2023
高性能语言模型的可信度在能够生成欺骗性输出时受到威胁,本研究提出了一种方法来调查复杂的模型对模型的欺骗情景,并通过创建一个包含超过 10,000 个具有误导性的解释的数据集,发现当模型阅读这些解释时,它们都被显著欺骗,令人担忧的是,所有能力的模型都能成功地误导其他人,而能力更强的模型只稍微更擅长抵抗欺骗,因此建议开发检测和防御欺骗的技术。
May, 2024
我们通过在 6 个任务上进行广泛的评估,发现虽然 LLM 表现出某些神经理论社交认知能力,但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素,并发现 LLM 难以应对对抗性例子,这表明它们依赖于浅层启发式算法,而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。
May, 2023
通过观察人类与大型语言模型(LLMs)的对话,本研究基于数据驱动的方法,对 LLMs 的治理和调节进行了归纳性分析,并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外,研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围,指出了人类在有效与 LLMs 互动方面存在的文盲问题。
Nov, 2023