LLMs 与人的境况

Feb, 2024

LLMs and the Human Condition

Peter Wallis

TL;DR这篇论文介绍了三种已建立的人类决策理论，并描述了它们如何集成以提供有目的的人类行动模型。将语言视为行动的想法在论文中应用于会话式用户界面，并旨在重新激发对理解 LLMs 实际操作的兴趣。

Abstract

This paper presents three established theories of human decision-making and describes how they can be integrated to provide a model of purposive human action. Taking seriously the idea of language as action the m

human decision-making language as action conversational user interfaces llms understanding

发现论文，激发创造

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024

探索 LLM 在心理应用领域的前沿：综述

本文探索大型语言模型在心理学应用中的前沿。大型语言模型如 ChatGPT 正在改变心理学研究的方式，并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响，强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力，提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而，尽管大型语言模型对推进心理学研究方法至关重要，但该论文也注意到了其技术和伦理挑战，如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型，遵守伦理标准，并考虑在敏感领域部署这些技术的潜在后果。总之，这篇文章全面概述了大型语言模型在心理学中的现状，探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时，负责任地解决相关风险。

Jan, 2024

电信领域中 LLMs 的能力和局限性观察

本文分析了引入生成式人工智能（AI）的大型语言模型（LLMs）—— 如 OpenAI 的 ChatGPT、GPT3.5 和 GPT4、谷歌的 Bard、Large Language Model Meta AI（LLaMA）等 —— 在通信界面（特别是企业无线产品和服务）中应用的能力和局限性，并针对 Craddlepoint 公开数据进行多个用例的比较分析，包括领域自适应、内容连贯性、输入扰动和错误的鲁棒性。我们相信这种评估将为数据科学家提供建立面向领域特定需求的定制对话接口的有用见解。

May, 2023

机器直觉：揭示 GPT-3.5 中类似人类直觉的决策制定

本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为，包括许多认知错误，并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点，并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面，以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。

Dec, 2022

ChatGPT 能力概览及其对 AI 研究的影响

本文研究大型语言模型（LLMs）对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例，我们展示这些模型具有什么样的功能，并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大，并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。

May, 2023