上下文中的模拟揭示了大型语言模型的实力和偏见
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
该研究使用大型语言模型 (Large language models) 和模拟人物 (Simulated personae) 来强化人类常识与认知,展现专家行为的力量,其中包括挑战 LLM 回应的准确度以及复现量子光学领域的最新研究结果。
Jun, 2023
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024
通过评估大型语言模型在角色扮演后的决策能力,验证了角色扮演的有效性,提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与 MBTI 人格类型相对应的虚拟角色描述,并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力,从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应 MBTI 类型的关联。实验结果表明,不同角色在决策能力的四个方面存在稳定的差异,显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。
Feb, 2024
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集,并进行了多项实验,研究了 LLMs 在以人物为驱动的决策中的能力。结果表明,目前的 LLMs 在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的 CHARMAP 方法,通过该方法可以获得 6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
大型语言模型(LLMs)是否具有其自己的世界观和个性倾向?对 LLM 模型回答主观问题的模拟进行了 100 多万次,将其回答与欧洲社会调查(ESS)的真实数据进行比较,结果表明问题引导对偏见和变异的影响是基本的,突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法,如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论,在使用 LLMs 模拟个体决策或集体行为之前,分析问题引导的稳健性和变异性非常重要,因为它们的模拟能力充其量是近似的。
May, 2024
大规模语言模型在大量文本语料库上进行训练,这些文本语料库编码了各种个性特质。本文提出了一种新的基于贝叶斯推断的个性提取框架 PICLe,旨在使语言模型的行为与目标个性相一致。通过与基准方法在三个当代语言模型上进行广泛比较,我们证明了 PICLe 的有效性。
May, 2024