大型语言模型的预测能力：基于一个现实世界预测比赛的证据

Oct, 2023

大型语言模型的预测能力：基于一个现实世界预测比赛的证据

Large Language Model Prediction Capabilities: Evidence from a Real-World Forecasting Tournament

Philipp Schoenegger, Peter S. Park

TL;DR利用 OpenAI 的最先进的大型语言模型 GPT-4，我们在 Metaculus 平台上进行了为期三个月的预测比赛，并发现 GPT-4 在真实世界的预测任务中明显表现不佳，相较于中间值的人类众测，其概率预测明显不准确。

Abstract

Accurately predicting the future would be an important milestone in the capabilities of artificial intelligence. However, research on the ability of large language models to provide →

artificial intelligence language models forecasting probabilistic predictions real-world predictive tasks

发现论文，激发创造

人类 vs 大型语言模型：先进人工智能时代的判断性预测

本研究通过比较人类专家与大型语言模型（LLMs）之间在零售行业中标准销售期和促销销售期的预测准确性，利用 123 位人类预测者和 5 个 LLMs（包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2），通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响：支持的统计模型（基线和高级）、产品是否促销以及外部影响的性质。研究结果表明，LLMs 在预测准确性上并不一致地胜过人类，并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者，在促销期间和受到积极外部影响的影响下，都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。

Dec, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

像素与预测：GPT-4V 在气象图像分析和预报通信中的潜力

通过评估 GPT-4V 在解释气象图表和向用户适当传达天气风险方面的能力，尽管存在幻觉等挑战，该研究强调谨慎整合 GPT-4V 等工具在气象学中的必要性，强调人工监督和开发可靠、可解释的人工智能。

Apr, 2024

语言模型是否能使用预测策略？

深度学习系统在图像分类、基本编程和标准化测试中已经达到或超过了人类的准确率。然而，在预测未来事件的能力上，模型仍然难以取得准确的结果。本研究使用了一种新颖的真实世界事件数据集和相关的人类预测，提出了一个评估指标来衡量预测能力，并对不同基于 LLM 的预测模型在该数据集上的准确性进行了分析。结果显示，模型在预测未来方面仍然存在困难，可能是由于模型倾向于猜测大多数事件不太可能发生，这在许多预测数据集中是正确的，但并不反映实际的预测能力。我们对开发系统化和可靠的 LLM 预测方法的下一步工作进行了思考。

Jun, 2024

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

基于大型语言模型的学习表现预测：一个成年识字能力的研究

应用大型语言模型，如 GPT-4，预测智能辅导系统中成人识字课程的学习表现。研究表明，GPT-4 与传统机器学习方法在预测学习表现方面具有竞争力，而 GPT-4 与 XGBoost 的结合在性能上优于本地机器执行。此外，研究发现 GPT-4 与网格搜索相比具有可比性表现，并且将大型语言模型与传统机器学习模型整合可提高预测准确性，个性化成人识字教育。

Mar, 2024

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

ChatGPT 可以通过讲述设定在未来的故事来预测未来关于过去的情况

研究调查了使用两种不同的提示策略时，OpenAI 的 ChatGPT-3.5 和 ChatGPT-4 是否能准确预测未来事件。经过分析 100 个提示，发现未来故事提示显著提高了 ChatGPT-4 的预测准确性，特别是在主要奥斯卡奖项和经济趋势的预测中。这些发现表明，故事提示利用了模型的虚构叙事构建能力，比简单的预测更能有效地进行数据综合和推断。我们的研究揭示了 LLMs 预测能力的新方面，并暗示了在分析背景下的潜在未来应用。

Apr, 2024

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023