从文本中测量预测技能

ACLJun, 2020

Measuring Forecasting Skill from Text

Shi Zong, Alan Ritter, Eduard Hovy

TL;DR本文探讨了语言因素与预测技能之间的联系，并基于语言模型对预测技能进行了准确预测。

Abstract

People vary in their ability to make accurate predictions about the future. Prior studies have shown that some individuals can predict the outcome of future events with consistently better accuracy. This leads to a natural question: what makes some forecasters better than others? In this paper we explore connections between the language people use to describ

forecasting skill linguistic metrics uncertainty readability emotion

发现论文，激发创造

语言模型是否能使用预测策略？

深度学习系统在图像分类、基本编程和标准化测试中已经达到或超过了人类的准确率。然而，在预测未来事件的能力上，模型仍然难以取得准确的结果。本研究使用了一种新颖的真实世界事件数据集和相关的人类预测，提出了一个评估指标来衡量预测能力，并对不同基于 LLM 的预测模型在该数据集上的准确性进行了分析。结果显示，模型在预测未来方面仍然存在困难，可能是由于模型倾向于猜测大多数事件不太可能发生，这在许多预测数据集中是正确的，但并不反映实际的预测能力。我们对开发系统化和可靠的 LLM 预测方法的下一步工作进行了思考。

Jun, 2024

基于时间文档历史的未来语言建模

预测未来的文本数据，结合时间历史背景，基于概率模型建立了未来语言模型。

Apr, 2024

运用语言模型接近人类水平的预测

利用语言模型进行预测可以在大规模上提供准确的预测结果，对于决策和政策制定具有重要意义。

Feb, 2024

人类 vs 大型语言模型：先进人工智能时代的判断性预测

本研究通过比较人类专家与大型语言模型（LLMs）之间在零售行业中标准销售期和促销销售期的预测准确性，利用 123 位人类预测者和 5 个 LLMs（包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2），通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响：支持的统计模型（基线和高级）、产品是否促销以及外部影响的性质。研究结果表明，LLMs 在预测准确性上并不一致地胜过人类，并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者，在促销期间和受到积极外部影响的影响下，都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。

Dec, 2023

问好的问题：预测的艺术与科学 —— 更准确回答高风险问题的机制

探索了预测的增长，这是一种使用明确的假设和定量估计的政治科学工具，可以帮助机构建立 AI 发展的中长期策略。该研究检查了成功的预测方法，其中包括了 Phillip Tetlock 的 “十个戒律”，并展示了超级预测员的案例研究和他们的洞察力最为可靠。对于应对快速变化的技术环境，设计师和政策制定者应该考虑预测作为第一道防线。

Mar, 2023

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

推特数据对未来的启示

通过研究推特上的未来学家预测的除了未来，并深入探究了语言提示对社交媒体用户的预测思维的影响，本研究使用尖端的自然语言处理模型构建了一个可扩展的 NLP 流程，并通过 LDA 和 BERTopic 方法识别了推特上未来学家的 15 个主题和 100 个不同主题，为未来学术研究和推特上的未来学家所预测提供了新的见解。

Jul, 2023

大型语言模型的预测能力：基于一个现实世界预测比赛的证据

利用 OpenAI 的最先进的大型语言模型 GPT-4，我们在 Metaculus 平台上进行了为期三个月的预测比赛，并发现 GPT-4 在真实世界的预测任务中明显表现不佳，相较于中间值的人类众测，其概率预测明显不准确。

Oct, 2023

基于文本的金融预测模型一致性测量

该研究旨在利用自然语言处理技术，设计并提供一种基于逻辑一致性的财务文本评估工具 ——FinTrust，分析现有的 NLP 模型对于历史市场信息的预测一致性较差，表明目前的基于文本的方式无法可靠地进行金融预测。

May, 2023

利用神经网络预测未来世界事件

该研究介绍了 Autocast 数据集以及伴随的新闻语料库，以提高语言模型的预测能力，其中还包括数字问题和度量标准的 IntervalQA 数据集，并发现语言模型的性能远低于人类专家基准，但随着模型规模和新闻语料库相关信息的增加，性能有所提高。

Jun, 2022