Nov, 2023

气候评估中的机器学习模型:LLMs 能准确评估人类专家对气候表述的信心吗?

TL;DR通过介绍 ClimateX 数据集,使用最新的 IPCC 报告收集的 8094 个气候陈述和与之相关的置信水平,我们展示了最近的大型语言模型(LLMs)可以在气候相关陈述中对人类专家的置信度进行分类,尤其是在少样本学习环境中,但准确率有限(最多为 47%)。在整体上,模型对低和中置信度陈述表现出一致且显著的过度自信。我们强调了这些结果对气候交流、LLMs 评估策略以及在信息检索系统中使用 LLMs 的影响。