Oct, 2023

大型语言模型的预测能力:基于一个现实世界预测比赛的证据

TL;DR利用 OpenAI 的最先进的大型语言模型 GPT-4,我们在 Metaculus 平台上进行了为期三个月的预测比赛,并发现 GPT-4 在真实世界的预测任务中明显表现不佳,相较于中间值的人类众测,其概率预测明显不准确。