基于LLMs的贝叶斯统计建模
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
本研究探讨了大型语言模型(LLMs)在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配,但本文揭示了显著的潜在差异,尤其是在复杂任务中,LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据,并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。
Jan, 2024
使用概率恒等式和重复判断来评估自回归大型语言模型的概率判断的连贯性,结果显示这些模型产生的判断通常是不连贯的,并显示出与概率理论规则相悖的人类式系统偏差;此外,当被提示对同一事件进行判断时,自回归大型语言模型产生的概率判断的均值-方差关系呈现出人类类似的倒U型关系;我们提出这些违背理性的偏差可以通过将自回归大型语言模型与隐式贝叶斯推断联系起来,并与人类概率判断的贝叶斯采样模型进行类比来解释。
Jan, 2024
利用合作博弈理论中的 Shapley 值独特方法解读大型语言模型的行为和量化每个提示组件对模型输出的相对贡献,揭示了被称为“标记噪声”效应的现象,该现象引发对大型语言模型在人类行为模拟中获得见解的健壮性和普适性的担忧。该研究强调在依赖大型语言模型作为研究对象替代品之前,需要更加细致地了解驱动大型语言模型响应的因素,并强调研究人员在报告结果时受到特定提示模板的条件限制,并要谨慎地在人类行为和大型语言模型之间绘制并行之间的类比。
Mar, 2024
使用大型语言模型作为认知模型具有潜力,但需要解决多个重要挑战。本文提出了一种新颖的方法,通过利用计算等效任务和特定任务分布,增强大型语言模型作为决策模型的效用,并展示了在决策制定中的应用。结果表明,预训练大型语言模型在生态有效的算术数据集上可以更好地预测人类行为,显示了与传统认知模型之间的强关联。但将大型语言模型用作认知模型时,需要通过去除预训练数据的实验来进行详细研究。
May, 2024
人们使用大型语言模型的目的,以及这些模型的部署决策、人类泛化功能的一致性,以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。
Jun, 2024
本研究解决了大型语言模型(LLMs)与人类决策之间的对齐问题,特别是受到顺序偏差影响的相似性判断。通过复现经典的人类研究,本研究揭示了不同设定下LLMs展现出类人顺序效应偏差的现象,这为LLM基础应用的设计和开发提供了重要的启示。
Aug, 2024