利用大型语言模型模拟实地实验

Aug, 2024

Simulating Field Experiments with Large Language Models

Yaoyu Chen, Yuheng Hu, Yingda Lu

TL;DR本研究探讨如何利用大型语言模型（LLMs）模拟实地实验，填补了现有研究的空白。通过提出观察者模式和参与者模式两种新颖提示策略，研究评估了LLMs在预测结果和复制参与者反应方面的能力。研究发现，在某些情况下，模拟结果与实际实验结果具有良好的对齐，呈现出LLMs在实地实验中的潜在应用价值及其局限性。

Abstract

Prevailing Large Language Models (LLMs) are capable of human responses Simulation through its unprecedented content generation and reasoning abilities. However, it is not clear whether and how to leverage LLMs to

发现论文，激发创造

超越模仿游戏：量化和推断语言模型的能力

通过引入Beyond the Imitation Game基准测试（BIG-bench），我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法——图灵实验（TE），用于评估语言模型（如GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的“超级精度扭曲”问题。

Aug, 2022

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准LMMBar，调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力，发现不同评估器对LMMBar的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

利用语言模型模拟听众来改善人际交流

通过使用大型语言模型在人际交流中探索、生成和模拟的EGS框架，提高目标导向交流的效果和结果，从而在革命性改变沟通和决策过程中开辟新的可能性。

Nov, 2023

揭示LLM生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据，并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

辩论中LLM仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了LLMs在模拟人类互动方面的局限性，特别关注LLMs在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵LLM内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024

基于LLMs的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现LLMs不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

利用大型语言模型创建人工智能角色以复制和预测媒体效果：对133项已发表实验研究结果的实证测试

本研究探讨了大型语言模型（LLMs）在促进已发布信息效果研究准确复制中的潜力。通过测试生成的AI角色，成功复制了133项来自14篇论文的实验发现，结果显示LLM能够重现76%的主要效果，表明其在加速市场研究中的应用前景，同时也指出了在复杂交互效应复制方面的局限性。

Aug, 2024

真实还是机器人？评估大型语言模型是否准确模拟人类对话的特质

本研究解决了大型语言模型（LLMs）在对话模拟中是否真实反映人类互动的缺口。通过生成10万个LLM-LLM和人类-LLM对话的数据集，研究发现模拟对话与人类对话在文本风格和内容上存在显著差异，表明LLMs的表现受限于与人类写作风格的相似性。这一发现对未来对话系统的设计和评估具有重要意义。

Sep, 2024

真实还是机械？评估大型语言模型在对话中是否准确模拟人类响应的特质

本研究解决了大型语言模型（LLMs）在模拟人类对话时的准确性问题。我们提出了一种方法，通过生成和分析10万个LLM与人类的对话对，发现LLM模拟与人类对话之间存在显著差异，尤其在文本风格和内容上。这项工作强调了LLMs的局限性，并指出人类在更接近LLM风格的写作时，模型的表现有所改善。

Sep, 2024