AI 增强预测:LLM 助理提高人类预测准确性
本研究通过比较人类专家与大型语言模型(LLMs)之间在零售行业中标准销售期和促销销售期的预测准确性,利用 123 位人类预测者和 5 个 LLMs(包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2),通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响:支持的统计模型(基线和高级)、产品是否促销以及外部影响的性质。研究结果表明,LLMs 在预测准确性上并不一致地胜过人类,并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者,在促销期间和受到积极外部影响的影响下,都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。
Dec, 2023
人类预测准确性依赖于 “群体智慧” 效应,即通过对一群个体预测者进行聚合,可以显著提高对未来事件的预测。本研究通过使用由 12 个大型语言模型(LLM)组成的群体,扩展了过去关于大型语言模型作为预测者的研究。结果表明,通过简单且实际可行的预测聚合方法,LLMs 能够获得与人类群体预测锦标赛相媲美的准确性,从而复制了 “群体智慧” 效应,为 LLMs 在社会各个领域的应用开辟了可能。
Feb, 2024
深度学习系统在图像分类、基本编程和标准化测试中已经达到或超过了人类的准确率。然而,在预测未来事件的能力上,模型仍然难以取得准确的结果。本研究使用了一种新颖的真实世界事件数据集和相关的人类预测,提出了一个评估指标来衡量预测能力,并对不同基于 LLM 的预测模型在该数据集上的准确性进行了分析。结果显示,模型在预测未来方面仍然存在困难,可能是由于模型倾向于猜测大多数事件不太可能发生,这在许多预测数据集中是正确的,但并不反映实际的预测能力。我们对开发系统化和可靠的 LLM 预测方法的下一步工作进行了思考。
Jun, 2024
大型语言模型在时间序列预测方面具有明显的优势和限制,尤其在具备明确模式和趋势的数据上,LLMs 表现出色,但在缺乏周期性的数据集上面临挑战。研究发现,引入外部知识和采用自然语言改写有利于提升 LLMs 在时间序列预测中的预测性能。
Feb, 2024
利用大型语言模型 (LLMs) 的增强功能,扩展人文社会科学领域的数据分析,用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架,结合了定性分析专业知识、机器可扩展性和严格的量化分析,同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证,展示了该框架的应用,涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同,这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外,生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化,但协议率可以在后续统计建模中考虑;文章还讨论了一个引导式方法。案例研究的复制实验证明,以前需要团队努力和复杂计算管道才能完成的任务,现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是,这种方法旨在增强研究者的知识和技能,而不是取代它们。鉴于这些机会,定性专业知识和提出有深度问题的能力无疑变得更加关键。
Sep, 2023
本研究对语言模型(LLMs)的理解能力进行了比较和对照,发现人类分析师和 LLMs 的分类和推理能力存在显著差异,但二者合作可能会产生协同效应,从而丰富了定性研究。
Jun, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
本文研究了利用大型语言模型(LLMs)来增强调查的三种不同应用程序:缺失数据插补,回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架,其中包含民意调查问题,个人信念和时间背景的神经嵌入,以个性化 LLMs 的意见预测。该研究表明,LLMs 表现出较低的精度,但最佳模型的准确率在意识形态上明显更高,可以用于填补缺失的趋势并确定公众态度的变化。但是,模型在 zero-shot 预测任务中的表现有限,强调了 LLMs 的挑战。
May, 2023
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现 LLMs 在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型 BrainGPT 表现更好,这预示着人类与 LLMs 共同合作进行科学发现的未来。
Mar, 2024