利用大型语言模型模拟实地实验
通过引入Beyond the Imitation Game基准测试(BIG-bench),我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上下文中情境偏见随规模增加而增加,但通过提示可以改善。
Jun, 2022
介绍了一种新的测试方法——图灵实验(TE),用于评估语言模型(如GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的“超级精度扭曲”问题。
Aug, 2022
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
本研究探讨了大型语言模型(LLMs)在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配,但本文揭示了显著的潜在差异,尤其是在复杂任务中,LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据,并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。
Jan, 2024
近期自然语言处理的进展,特别是大型语言模型(LLMs)的出现,为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而,LLMs是复杂的统计学习器,缺乏直接的演绎规则,因此容易产生意想不到的行为。本研究突出了LLMs在模拟人类互动方面的局限性,特别关注LLMs在模拟政治辩论方面的能力。我们的发现表明,尽管被指示从特定的政治角度进行辩论,LLM代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离,似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果,该方法使我们能够操纵LLM内的偏见,并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性,以开发帮助代理克服这些偏见的方法,是创造更现实模拟的关键一步。
Feb, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现LLMs不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
本研究探讨了大型语言模型(LLMs)在促进已发布信息效果研究准确复制中的潜力。通过测试生成的AI角色,成功复制了133项来自14篇论文的实验发现,结果显示LLM能够重现76%的主要效果,表明其在加速市场研究中的应用前景,同时也指出了在复杂交互效应复制方面的局限性。
Aug, 2024
本研究解决了大型语言模型(LLMs)在对话模拟中是否真实反映人类互动的缺口。通过生成10万个LLM-LLM和人类-LLM对话的数据集,研究发现模拟对话与人类对话在文本风格和内容上存在显著差异,表明LLMs的表现受限于与人类写作风格的相似性。这一发现对未来对话系统的设计和评估具有重要意义。
Sep, 2024
本研究解决了大型语言模型(LLMs)在模拟人类对话时的准确性问题。我们提出了一种方法,通过生成和分析10万个LLM与人类的对话对,发现LLM模拟与人类对话之间存在显著差异,尤其在文本风格和内容上。这项工作强调了LLMs的局限性,并指出人类在更接近LLM风格的写作时,模型的表现有所改善。
Sep, 2024