Oct, 2023

大型语言模型是否能够取代人类进行系统评述过程?评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

TL;DR这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。