从文本中测量预测技能
深度学习系统在图像分类、基本编程和标准化测试中已经达到或超过了人类的准确率。然而,在预测未来事件的能力上,模型仍然难以取得准确的结果。本研究使用了一种新颖的真实世界事件数据集和相关的人类预测,提出了一个评估指标来衡量预测能力,并对不同基于 LLM 的预测模型在该数据集上的准确性进行了分析。结果显示,模型在预测未来方面仍然存在困难,可能是由于模型倾向于猜测大多数事件不太可能发生,这在许多预测数据集中是正确的,但并不反映实际的预测能力。我们对开发系统化和可靠的 LLM 预测方法的下一步工作进行了思考。
Jun, 2024
本研究通过比较人类专家与大型语言模型(LLMs)之间在零售行业中标准销售期和促销销售期的预测准确性,利用 123 位人类预测者和 5 个 LLMs(包括 ChatGPT4、ChatGPT3.5、Bard、Bing 和 Llama2),通过平均绝对百分比误差评估预测精度。我们的分析集中于以下因素对预测者表现的影响:支持的统计模型(基线和高级)、产品是否促销以及外部影响的性质。研究结果表明,LLMs 在预测准确性上并不一致地胜过人类,并且高级统计预测模型并不一致地提升人类预测者或 LLMs 的性能。无论是人类预测者还是 LLM 预测者,在促销期间和受到积极外部影响的影响下,都表现出更高的预测误差。我们的研究结果要求在将 LLMs 纳入实际预测过程时需要谨慎考虑。
Dec, 2023
探索了预测的增长,这是一种使用明确的假设和定量估计的政治科学工具,可以帮助机构建立 AI 发展的中长期策略。该研究检查了成功的预测方法,其中包括了 Phillip Tetlock 的 “十个戒律”,并展示了超级预测员的案例研究和他们的洞察力最为可靠。对于应对快速变化的技术环境,设计师和政策制定者应该考虑预测作为第一道防线。
Mar, 2023
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
通过研究推特上的未来学家预测的除了未来,并深入探究了语言提示对社交媒体用户的预测思维的影响,本研究使用尖端的自然语言处理模型构建了一个可扩展的 NLP 流程,并通过 LDA 和 BERTopic 方法识别了推特上未来学家的 15 个主题和 100 个不同主题,为未来学术研究和推特上的未来学家所预测提供了新的见解。
Jul, 2023
利用 OpenAI 的最先进的大型语言模型 GPT-4,我们在 Metaculus 平台上进行了为期三个月的预测比赛,并发现 GPT-4 在真实世界的预测任务中明显表现不佳,相较于中间值的人类众测,其概率预测明显不准确。
Oct, 2023
该研究旨在利用自然语言处理技术,设计并提供一种基于逻辑一致性的财务文本评估工具 ——FinTrust,分析现有的 NLP 模型对于历史市场信息的预测一致性较差,表明目前的基于文本的方式无法可靠地进行金融预测。
May, 2023
该研究介绍了 Autocast 数据集以及伴随的新闻语料库,以提高语言模型的预测能力,其中还包括数字问题和度量标准的 IntervalQA 数据集,并发现语言模型的性能远低于人类专家基准,但随着模型规模和新闻语料库相关信息的增加,性能有所提高。
Jun, 2022