利用 LLMs 加速系统评价筛选过程的承诺与挑战

Apr, 2024

利用 LLMs 加速系统评价筛选过程的承诺与挑战

The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews

Aleksi Huotala, Miikka Kuutila, Paul Ralph, Mika Mäntylä

TL;DR系统性综述（SR）是软件工程（SE）中一种常见的研究方法。本研究旨在调查大型语言模型（LLMs）是否能通过简化摘要来加速标题 - 摘要筛选，并自动化标题 - 摘要筛选。研究结果表明，使用 LLMs 进行文本简化在筛选过程中并未显著提高人类的表现，但减少了筛选所需的时间。虽然当前的 LLMs 在筛选任务中并不比人类筛选者更准确，但使用 LLMs 自动化标题 - 摘要筛选似乎是有前景的。需要进一步的研究才能推荐在 SR 筛选过程中使用 LLMs。建议未来的 SR 研究发布包含筛选数据的复制包，以便进行更有说服力的 LLM 筛选实验。

Abstract

systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if →

systematic review large language models title-abstract screening prompting techniques screening performance

发现论文，激发创造

用于系统评审筛选自动化的零样本生成式大型语言模型

使用零 - shot 大型语言模型～(LLMs) 进行自动筛选的效果研究显示，指导微调在筛选中发挥重要作用，校准使 LLMs 实现了有针对性的回收，并且将两者与零 - shot 模型集成结合，与最先进的方法相比节省了大量筛选时间。

Jan, 2024

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Oct, 2023

使用 GPT-4 大型语言模型的自动标题和摘要筛选进行范围审查

使用 GPT-4 大型语言模型（LLM）的 GPTscreenR 软件包及链式思维技术，能够自动筛选大量学术资源并在效能和性能方面表现良好，提供了一个可集成到现有审查流程中的用户友好的软件框架。

Nov, 2023

利用领域特定大型语言模型进行研究综述的自动化

本研究探索使用精细调整的大型语言模型（LLMs）自动化系统性文献综述（SLRs），提出了将人工智能与学术研究方法相结合的重要和创新贡献。通过采用最新的精细调整方法和开源的 LLMs，我们展示了一种实用高效的自动化 SLR 过程的方法，包括知识综合的最终执行阶段。研究结果在 LLM 响应的事实准确性方面保持了很高的保真度，并通过对现有符合 PRISMA 的 SLR 的复制进行了验证。研究提出了减轻 LLM 虚幻感的解决方案，并提出了追踪 LLM 响应与信息来源的机制，从而证明了这种方法如何满足学术研究的严格需求。最终的发现证实了精细调整的 LLMs 在简化各种劳动密集型的文献综述过程方面的潜力。鉴于这种方法的潜力及其在所有研究领域的适用性，这项基础研究还呼吁更新 PRISMA 报告指南以整合 AI 驱动的过程，确保未来 SLRs 的方法透明性和可靠性。该研究拓宽了 AI 增强工具在各学术和研究领域的应用，为在日益增长的学术研究数量面前以更高效的方式进行全面准确的文献综述设立了新的标准。

Apr, 2024

使用大型语言模型进行系统综述中的数据提取探索：快速可行性研究

该文章介绍了使用 GPT-4（一个大型语言模型）快速可行性研究来（半）自动化系统性综述中的数据提取，在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。

May, 2024

LLM Agents 在招聘中的应用：一种用于简历筛选的创新框架

这篇论文介绍了一种基于大型语言模型的代理框架，用于简历筛选，旨在提高招聘过程的效率和时间管理。通过实验，结果显示我们的自动简历筛选框架比传统手动方法快 11 倍，经过微调，我们的模型在简历分类和摘要及打分阶段的表现超过了 GPT-3.5 模型的基准性能，同时对 LLM 代理在最终录取阶段的决策效力进行的分析也进一步凸显了 LLM 代理在改变简历筛选过程中的潜力。

Jan, 2024

利用 AI 能力的 GPT-4 助理 API 简化系统文献综述（SLRs）的选择阶段

这项研究引入了一种开创性的基于人工智能的工具，旨在提高系统文献综述中的文章选择阶段的效率，通过数据准备、人工智能辅助文章评估和结构化结果展示的三重方法实现，该工具在各个学术领域中显著加速了文献综述的耗时任务，特别在管理和经济学等领域中，GPT 模型的采用可以大大减少潜在的偏见，提高文献综述选择阶段的速度和准确性，不仅增加了研究人员的生产力和准确性，而且在涌现的学术出版物潮中迈出了重要的步伐。

Jan, 2024

评估 ChatGPT 在系统性综述文章筛选方面的能力

本报告提出一种利用最新技术发展自动化 Systematic Reviews 筛选的方法，通过与传统分类器相比较的一系列实验，证明了 ChatGPT 成为自动化 SR 过程的一种可行选择，但需要开发人员仔细考虑在 SR 工具中集成 ChatGPT 的情况。

Jul, 2023

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023

评估 LLM 在医学系统评价中的潜在用途和风险

该研究考虑了使用大型自然语言处理模型辅助生成医学证据综述的益处和风险，以 16 个半结构化面谈为基础，为领域讨论提出了评估标准。

May, 2023