AI 增强预测：LLM 助理提高人类预测准确性

Feb, 2024

AI 增强预测：LLM 助理提高人类预测准确性

AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy

Philipp Schoenegger, Peter S. Park, Ezra Karger, Philip E. Tetlock

TL;DR该研究探讨了大型语言模型（LLMs）在预测任务中增强判断能力的潜力，研究结果表明，与对照组相比，LLM 辅助可以显著提高预测准确性，即使是面对回答不确定的认知要求高的任务，使用 LLM 助手（即使是倾向性的助手）仍然可以作为有益的决策辅助。

Abstract

large language models (LLMs) show impressive capabilities, matching and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment judgement in forecasting tasks. We evaluated the impact on →

large language models forecasting accuracy gpt-4-turbo assistants llm augmentation decision aid

发现论文，激发创造

人类 vs 大型语言模型：先进人工智能时代的判断性预测

本研究通过比较人类专家与大型语言模型（LLMs）之间在零售行业中标准销售期和促销销售期的预测准确性，利用 123 位人类预测者和 5 个 LLMs（包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2），通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响：支持的统计模型（基线和高级）、产品是否促销以及外部影响的性质。研究结果表明，LLMs 在预测准确性上并不一致地胜过人类，并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者，在促销期间和受到积极外部影响的影响下，都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。

Dec, 2023

硅众智慧：LLM 集合预测能力能媲美人工智能准确性

人类预测准确性依赖于 “群体智慧” 效应，即通过对一群个体预测者进行聚合，可以显著提高对未来事件的预测。本研究通过使用由 12 个大型语言模型（LLM）组成的群体，扩展了过去关于大型语言模型作为预测者的研究。结果表明，通过简单且实际可行的预测聚合方法，LLMs 能够获得与人类群体预测锦标赛相媲美的准确性，从而复制了 “群体智慧” 效应，为 LLMs 在社会各个领域的应用开辟了可能。

Feb, 2024

运用语言模型接近人类水平的预测

利用语言模型进行预测可以在大规模上提供准确的预测结果，对于决策和政策制定具有重要意义。

Feb, 2024

语言模型是否能使用预测策略？

深度学习系统在图像分类、基本编程和标准化测试中已经达到或超过了人类的准确率。然而，在预测未来事件的能力上，模型仍然难以取得准确的结果。本研究使用了一种新颖的真实世界事件数据集和相关的人类预测，提出了一个评估指标来衡量预测能力，并对不同基于 LLM 的预测模型在该数据集上的准确性进行了分析。结果显示，模型在预测未来方面仍然存在困难，可能是由于模型倾向于猜测大多数事件不太可能发生，这在许多预测数据集中是正确的，但并不反映实际的预测能力。我们对开发系统化和可靠的 LLM 预测方法的下一步工作进行了思考。

Jun, 2024

LLMs 的时间序列预测：理解和增强模型能力

大型语言模型在时间序列预测方面具有明显的优势和限制，尤其在具备明确模式和趋势的数据上，LLMs 表现出色，但在缺乏周期性的数据集上面临挑战。研究发现，引入外部知识和采用自然语言改写有利于提升 LLMs 在时间序列预测中的预测性能。

Feb, 2024

机器辅助混合方法：用人工智能增强人文社科研究

利用大型语言模型 (LLMs) 的增强功能，扩展人文社会科学领域的数据分析，用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架，结合了定性分析专业知识、机器可扩展性和严格的量化分析，同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证，展示了该框架的应用，涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同，这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外，生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化，但协议率可以在后续统计建模中考虑；文章还讨论了一个引导式方法。案例研究的复制实验证明，以前需要团队努力和复杂计算管道才能完成的任务，现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是，这种方法旨在增强研究者的知识和技能，而不是取代它们。鉴于这些机会，定性专业知识和提出有深度问题的能力无疑变得更加关键。

Sep, 2023

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

基于 LLMs 的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现 LLMs 不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

AI-Augmented 调查：运用大型语言模型对全国代表性调查的意见预测

本文研究了利用大型语言模型（LLMs）来增强调查的三种不同应用程序：缺失数据插补，回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架，其中包含民意调查问题，个人信念和时间背景的神经嵌入，以个性化 LLMs 的意见预测。该研究表明，LLMs 表现出较低的精度，但最佳模型的准确率在意识形态上明显更高，可以用于填补缺失的趋势并确定公众态度的变化。但是，模型在 zero-shot 预测任务中的表现有限，强调了 LLMs 的挑战。

May, 2023

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024