使用大型语言模型模拟多人并复制人类受试研究
本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性,并提出算法保真度的概念,通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析,揭示了其中的 “算法偏差” 不是均质的,而是有人口学相关性的。作者通过调节模型条件,成为可以精确模拟大量人讨论或表达的回应情况的一种工具,这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。
Sep, 2022
通过对大型语言模型的实验,研究表明情绪对其行为的决策和人类决策的关联存在重要影响,其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。
Jun, 2024
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
大型语言模型(LLMs)是自我监督的预训练模型,可适应广泛的自然语言任务,但其是否理解其所说的话或表现出智能受到广泛争议。提出了一个新的可能性,即它们表现出的智能实际上是镜像了面试官的智能,它可能更多地揭示了面试者的智能和信仰而不是 LLMs 的智能。该论文提出了七种启发于大脑系统的方法,以实现人工智能的普遍自主权。
Jul, 2022
该研究提出了 TuringBench 基准环境,旨在解决神经文本生成方法的 “图灵测试” 问题,它包括 200K 个人工或机器生成的样本数据集,分别涵盖 20 个标签,以及两个基准测试任务和网站排行榜,研究初步实验表明,FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。
Sep, 2021
使用 ECHO 框架基于图灵测试评估三种角色扮演型大型语言模型(LLMs),结果发现 GPT-4 在欺骗人类评估者方面更为有效,并且 GPTs 实现了 48.3% 的领先成功率。
Apr, 2024
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
用 GPT-4 模型进行大规模实验(N=8000),发现其能否复制使用十项人格测试测量的 Big Five 的跨文化差异,结果显示 GPT-4 能够复制出每个因素的跨文化差异,但平均评分有向上偏倚,展现出比人类样本更小的变异性和较低的结构效度,总体上,我们提供初步证据证明语言模型有助于跨文化心理研究。
Oct, 2023
通过五项任务评估语言模型在对话推荐中模拟人类行为的效果,研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异,并提供了模型选择和提示策略的见解。
Mar, 2024
GPT-4 在一个在线的图灵测试中表现出色,通过了 41% 的比赛,胜过了 ELIZA(27%)和 GPT-3.5(14%)的基准,但不及人类参与者(63%)的基准。参与者的决策主要基于语言风格(35%)和社交情感特征(27%),支持智能不足以通过图灵测试的观点。与教育程度和对 LLMs 的熟悉程度等参与者的个人信息无法预测检测率,这表明即使是那些深入了解系统并经常与其互动的人也可能受到欺骗。尽管图灵测试作为智能测试具有已知限制,我们认为它仍然是评估自然交流和欺骗的相关工具。具备冒充人类能力的 AI 模型可能对社会产生广泛的影响,我们分析了不同策略和准则来评判人类的相似性的效果。
Oct, 2023