人工智能驱动的评审系统:在可扩展和关注偏见的学术评审中评估大型语言模型
使用GPT-4模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估GPT-4生成的反馈质量。 在两项大规模研究中,我们将GPT-4生成的反馈与人工同行评审的反馈进行了定量比较,并通过308名研究人员的用户研究了解了他们对GPT-4生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为GPT-4生成的反馈有所帮助,82.4%的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
我们提出了一种新颖的平台,用于评估大型语言模型(LLMs)自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中,人工智能系统通过模拟同行评审机制进行操作,类似于传统学术期刊,人类组织者担任编辑监督职责。在这个框架内,我们为2023年AutoML会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章,并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计,包括实施基线提交和评估方法。
Oct, 2023
通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。
Jan, 2024
通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能,我们提出了一种新颖的无监督评估方法,并通过为每个语言模型分配可学习的能力参数来调整最终排名,以最大化每个语言模型的能力和得分的一致性,并使用PEN、CIN和LIS三个指标来评估与人工评级的一致性差距,实验证明了该方法的有效性。
Feb, 2024
我们提出了一种高效的两阶段审稿生成框架Reviewer2,通过明确建模审稿可能涉及的各个方面的分布来生成更详细、更全面的审稿,解决了自动审稿生成方法缺乏细节和评述范围与人工评审者相比较少的问题。
Feb, 2024
通过案例研究,使用GPT-3.5、LLaMA2和PaLM2等三种大型语言模型根据TELeR分类法的不同类型/级别的引导,自动生成学术同行评审中的元评审,然后对元评审进行详细的定性研究,总结了在这一复杂任务中为大型语言模型提供引导的发现和建议。
Feb, 2024
本研究探索使用精细调整的大型语言模型(LLMs)自动化系统性文献综述(SLRs),提出了将人工智能与学术研究方法相结合的重要和创新贡献。通过采用最新的精细调整方法和开源的LLMs,我们展示了一种实用高效的自动化SLR过程的方法,包括知识综合的最终执行阶段。研究结果在LLM响应的事实准确性方面保持了很高的保真度,并通过对现有符合PRISMA的SLR的复制进行了验证。研究提出了减轻LLM虚幻感的解决方案,并提出了追踪LLM响应与信息来源的机制,从而证明了这种方法如何满足学术研究的严格需求。最终的发现证实了精细调整的LLMs在简化各种劳动密集型的文献综述过程方面的潜力。鉴于这种方法的潜力及其在所有研究领域的适用性,这项基础研究还呼吁更新PRISMA报告指南以整合AI驱动的过程,确保未来SLRs的方法透明性和可靠性。该研究拓宽了AI增强工具在各学术和研究领域的应用,为在日益增长的学术研究数量面前以更高效的方式进行全面准确的文献综述设立了新的标准。
Apr, 2024
通过使用大型语言模型提高文献回顾过滤的效率、速度和准确性,减少了人工筛选的工作量,并且通过一致性方案控制了假阴性,从而实现了比人工选择更准确和相关的文章。
Jul, 2024
本研究旨在总结大型语言模型(LLMs)在科学综述生成过程中的应用,发现了众多文献综述阶段可被自动化,并评估了当前相关研究的进展。研究表明,GPT-based LLM在文献综述自动化中占据主导地位,而现有文献中真正应用LLM的综述仅占少数,但预示着LLMs将在未来改变科学综述的开展方式。
Sep, 2024