May, 2023

利用人工智能梳理历史:GPT 3.5、GPT4 和 GoogleBARD 的预测准确度和事实核查比较评估

TL;DR本研究评估了三种大型语言模型 LLMs(GPT 3.5、GPT 4 和 GoogleBARD)在预测和验证历史事件方面的性能,并引入了一个新的度量标准,即 “距离现实(DTR)”,以评估模型的输出与已知历史事实的符合度。结果表明,AI 在历史研究中具有巨大潜力,GPT 4 表现优异。本文强调了进一步研究 AI 在丰富我们对过去的理解和填补历史知识差距中的作用的必要性。