Apr, 2024

评估大型语言模型的一致性和推理能力

TL;DR大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有模型在一致性和推理能力方面通常优于公开模型,但即使面对基本的常识问题,没有一个模型在一致性和推理能力上都达到 90% 的得分。