Jul, 2024

大型语言模型作为科学综合评估器

TL;DR研究探讨了大型语言模型(如 GPT-4 和 Mistral)如何评估科学摘要(或更适合称为科学综述)的质量,将它们的评估与人工标注者的评价进行比较。通过使用包含 100 个研究问题及其由 GPT-4 从五篇相关论文摘要生成的综述的数据集,并与人工质量评分进行核查,该研究评估了闭源的 GPT-4 和开源的 Mistral 模型评估这些摘要,并提供其判断的理由。初步结果显示,大型语言模型可以提供与质量评分相对应的逻辑解释,但更深入的统计分析显示大型语言模型与人工评分之间存在较弱的相关性,这表明了大型语言模型在科学综述评估中的潜力和当前的局限性。