大型语言模型能否取代经济选择预测实验室?
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
在宏观经济仿真中,利用大型语言模型(LLMs)的人类化特性可以克服传统限制,能够设计出表现出人类决策和适应能力的 LLM 代理,进行模拟实验以展示其逼真的工作和消费决策能力,并产生比现有规则化或人工智能代理更合理的宏观经济现象。
Oct, 2023
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024
使用大型语言模型作为认知模型具有潜力,但需要解决多个重要挑战。本文提出了一种新颖的方法,通过利用计算等效任务和特定任务分布,增强大型语言模型作为决策模型的效用,并展示了在决策制定中的应用。结果表明,预训练大型语言模型在生态有效的算术数据集上可以更好地预测人类行为,显示了与传统认知模型之间的强关联。但将大型语言模型用作认知模型时,需要通过去除预训练数据的实验来进行详细研究。
May, 2024
当前的研究论文测试了大型语言模型(LLMs)的可行性,作为人工代理人参与社会学实验中的对话活动,揭示了 LLMs 在辩论中的限制,以及其对人类的影响和能力。
Feb, 2024
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集,并进行了多项实验,研究了 LLMs 在以人物为驱动的决策中的能力。结果表明,目前的 LLMs 在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的 CHARMAP 方法,通过该方法可以获得 6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
使用因果推断框架,我们在实证和理论上分析了进行 LLM 模拟实验的挑战,并探索了潜在解决方案,其中需求估计的上下文中,我们表明提示中所包含的处理变体(例如,商品价格)可能导致未指定混淆因素的变化(例如,竞争对手的价格,历史价格,外部温度),从而引入内生性并产生不太可能的平坦需求曲线。我们提出了一个理论框架,表明这种内生性问题推广到其他情境,并不能仅通过改进训练数据来完全解决。
Dec, 2023
评估大型语言模型在经济领域的知识和推理能力,发现它们在经济推理方面不够成熟且可能产生错误或虚构的结果,提出了经济事件的自然语言推理数据集(EconNLI)以增强评估方法,认识到在涉及经济推理和分析的关键决策中使用大型语言模型存在局限性。
Jul, 2024