Oct, 2023

大型语言模型能否给研究论文提供有用反馈?一个大规模实证分析

TL;DR使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。