Oct, 2023
大型语言模型是否能够取代人类进行系统评述过程?评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力
Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages
TL;DR这项研究通过对GPT-4在标题/摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然GPT-4在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对GPT-4进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM可以与人工表现媲美。