大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

Oct, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages

PDF

Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch, Kristin Hadfield

TL;DR这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Abstract

systematic reviews are vital for guiding practice, research, and policy, yet they are often slow and labour-intensive. large language models (LLMs) could offer a way to speed up and automate →

systematic reviews large language models gpt-4 performance data extraction

发现论文，激发创造

使用大型语言模型进行系统综述中的数据提取探索：快速可行性研究

该文章介绍了使用 GPT-4（一个大型语言模型）快速可行性研究来（半）自动化系统性综述中的数据提取，在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。

May, 2024

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023

大型语言模型能否给研究论文提供有用反馈？一个大规模实证分析

使用 GPT-4 模型创建了一个自动化平台，通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。在两项大规模研究中，我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较，并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。总体而言，超过半数的用户（57.4%）认为 GPT-4 生成的反馈有所帮助，82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。

Oct, 2023

GPT-4 对人类翻译员的全面评估：跨语言、领域和专业水平的翻译质量

本研究针对大规模语言模型（LLMs），特别是 GPT-4，在多语言对和领域中，对不同翻译专业水平的人类翻译员进行全面评估，发现 GPT-4 在总体错误数量上表现与初级翻译员相当，但在中级和高级翻译员之下。我们还观察到在不同语言和领域中性能不平衡，GPT-4 的翻译能力从资源丰富的方向逐渐减弱。此外，我们定性地研究了 GPT-4 和人类翻译员的翻译结果，发现 GPT-4 的翻译存在逐字翻译的问题，而人类翻译员有时过于思考背景信息。据我们所知，本研究是首次对 LLMs 与人类翻译员进行评估并分析其输出之间的系统差异，为我们了解基于 LLM 的翻译目前的状态和潜在限制提供了有价值的见解。

Jul, 2024

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

利用 LLM 在系统性文献综述中提高过滤效率的潜力

通过使用大型语言模型提高文献回顾过滤的效率、速度和准确性，减少了人工筛选的工作量，并且通过一致性方案控制了假阴性，从而实现了比人工选择更准确和相关的文章。

Jul, 2024

利用 LLMs 加速系统评价筛选过程的承诺与挑战

系统性综述（SR）是软件工程（SE）中一种常见的研究方法。本研究旨在调查大型语言模型（LLMs）是否能通过简化摘要来加速标题 - 摘要筛选，并自动化标题 - 摘要筛选。研究结果表明，使用 LLMs 进行文本简化在筛选过程中并未显著提高人类的表现，但减少了筛选所需的时间。虽然当前的 LLMs 在筛选任务中并不比人类筛选者更准确，但使用 LLMs 自动化标题 - 摘要筛选似乎是有前景的。需要进一步的研究才能推荐在 SR 筛选过程中使用 LLMs。建议未来的 SR 研究发布包含筛选数据的复制包，以便进行更有说服力的 LLM 筛选实验。

Apr, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型作为科学综合评估器

研究探讨了大型语言模型（如 GPT-4 和 Mistral）如何评估科学摘要（或更适合称为科学综述）的质量，将它们的评估与人工标注者的评价进行比较。通过使用包含 100 个研究问题及其由 GPT-4 从五篇相关论文摘要生成的综述的数据集，并与人工质量评分进行核查，该研究评估了闭源的 GPT-4 和开源的 Mistral 模型评估这些摘要，并提供其判断的理由。初步结果显示，大型语言模型可以提供与质量评分相对应的逻辑解释，但更深入的统计分析显示大型语言模型与人工评分之间存在较弱的相关性，这表明了大型语言模型在科学综述评估中的潜力和当前的局限性。

Jul, 2024

使用 GPT-4 大型语言模型的自动标题和摘要筛选进行范围审查

使用 GPT-4 大型语言模型（LLM）的 GPTscreenR 软件包及链式思维技术，能够自动筛选大量学术资源并在效能和性能方面表现良好，提供了一个可集成到现有审查流程中的用户友好的软件框架。

Nov, 2023