预测性思维：LLMs 作为非典型的主动推理代理

Nov, 2023

预测性思维：LLMs 作为非典型的主动推理代理

Predictive Minds: LLMs As Atypical Active Inference Agents

Jan Kulveit, Clem von Stengel, Roman Leventov

TL;DR大型语言模型通常被概念化为被动的预测器或模拟器，但我们通过借鉴认知科学和神经科学中的主动推断理论来重新概念化大型语言模型。我们检查传统主动推断系统和大型语言模型之间的相似性和差异，得出结论说，目前大型语言模型缺乏在行动和感知其行动影响之间的紧密反馈循环，但它们仍符合主动推断范式。我们列举了为什么这个循环可能很快就会闭合的原因，以及可能的后果，包括增强模型的自我意识和通过改变世界来最小化预测误差的动力。

Abstract

large language models (LLMs) like gpt are often conceptualized as passive predictors, simulators, or even stochastic parrots. We instead conceptualize LLMs by drawing on the theory of →

large language models gpt active inference feedback loop prediction error

发现论文，激发创造

GPT-ology，计算模型，硅采样：认知科学中的 LLMs 如何思考？

大型语言模型在认知科学领域引起了轰动，现在是时候对用于在这些模型或人类认知中进行科学推理的各种研究范式进行总结。我们回顾了几种新兴的研究范式 - GPT-ology、LLMs 作为计算模型以及 “硅采样”，并回顾了最近在这些范式下使用 LLMs 的论文。在这样做的过程中，我们讨论了它们的主张以及在这些不同范式下进行科学推理的挑战。我们强调了几个关于 LLMs 需要解决的重要问题，以推动我们的科学发展：闭源 vs 开源模型；（缺乏的）训练数据；并且在 LLM 研究中的可重复性，包括形成新任务 “超参数”（如指令和提示）的约定。

Jun, 2024

基于 LLMs 的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现 LLMs 不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024

大型语言模型与反图灵测试

大型语言模型（LLMs）是自我监督的预训练模型，可适应广泛的自然语言任务，但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性，即它们表现出的智能实际上是镜像了面试官的智能，它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法，以实现人工智能的普遍自主权。

Jul, 2022

LLM 认知判断与人类不同

GPT-3 和 ChatGPT 在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

理解 LLMs: 从训练到推理的综合概述

ChatGPT 的引入使得大型语言模型（LLM）被广泛应用于解决后续任务，而在此背景下，低成本的 LLM 培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面，讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面，本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了 LLM 的利用并提供了对其未来发展的见解。

Jan, 2024

LLM 代理人是否表现出社会行为？

大型语言模型在社交科学研究和实际应用中的作用被不断拓展，然而在与人类和其他代理进行交互时，这些模型展现了一系列人类类似的社交行为，同时也存在一些行为差异，因此需要进一步研究和发展评估协议，以直接应用这些模型来模拟人类行为。

Dec, 2023

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024