可以自动化科学审稿吗?
科学文章数量快速增长,对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错,自然语言处理(NLP)在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础,讨论了同行评审的一般过程,以 AI 会议的审稿为例,详细阐述了从文稿提交到定稿的每个步骤,讨论了 NLP 协助的挑战和机遇,提出了 NLP 同行评审面临的大型挑战,包括数据获取、运营和实验、伦理问题,并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后,我们呼吁科学界、NLP 和 AI 研究人员、政策制定者和资助机构共同努力推动 NLP 同行评审的研究,希望我们的工作能够在 AI 时代为机器辅助的科学质量控制设定议程,不仅仅限于 NLP 社区。
May, 2024
本文介绍了一种方法,可以根据用户定义的查询自动生成一篇综述论文。该方法包括两个主要部分,第一部分通过诸如同袍引用的图表等文献计量参数来识别领域中的关键论文。第二阶段使用 BERT 架构,我们在现有的综述论文中对这些关键论文进行抽取式摘要。我们介绍了我们方法的一般流程和一些实现细节,并在 PubMed 数据集上进行了自动和专家评估。
Oct, 2020
在近 15 年里,通过调查 AI 技术的应用情况,以帮助研究人员进行系统的科学文献分析,我们揭示了当前支持的任务、应用的算法类型和 34 项研究中提出的可用工具,同时提供了该领域演变的历史视角和人类在越来越自动化的系统性文献回顾过程中发挥的作用。
Jan, 2024
通过构建一个自动化的流水线以及实验,我们在仅需人工筛选的 2 周时间内,取得了非常高的准确性和泛化能力,从而使得系统能够自动完成系统性评论过程的主要步骤,包括文件搜索、文件选择以及数据提取。
Oct, 2020
本研究通过比较人工评审者和机器学习模型得出的结果,研究了 AI 在学术安全会议评审中的表现,并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础,评估了文献评审结果的预测能力,发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT,达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制,并探索了文献评审过程中能够从自动化支持方法中获益的领域,同时也认识到在某些方面,尖端 AI 技术无法替代人类智慧的不可替代角色。
Sep, 2023
提出了一种自动系统,将调查论文审查任务概念化为一个分类问题,采用机器学习模型测定与指定主题相关的论文的相关性,并且通过使用 BERT 等高级语言模型,取得了优于传统机器学习方法的初步结果。
Jun, 2024
通过 SciReviewGen 数据集,我们评估了最近基于 Transformer 的文献综述生成模型在文献综述生成任务上的表现,其中包含用于文献综述生成扩展的 Fusion-in-Decoder 模型,并且发现自动生成的摘要已经可以和人工撰写的综述媲美,但是也揭示出文献综述自动生成的挑战,例如幻觉和缺乏详细信息。
May, 2023
本文研究了一种新颖的评审 - 文章匹配方法,该方法已被引入多个计算机科学领域的顶级会议,包括 AAAI,ICML,IJCAI 等,并通过对现实数据的广泛后期分析进行了评估,比较了其与 AAAI 2020 版本使用的匹配算法的不同之处。
Feb, 2022
NLPeer 是第一个伦理资源资料来源跨领域的超过 5k 篇论文和 11k 篇来自五个不同论文场馆的审稿报告,它建立了统一的数据表示,并且增加了富元数据和版本信息,这项工作为 NLP 及其他领域的同行评议的系统性、多方面、以证据为基础的研究铺平了道路。我们将 NLPeer 公开提供。
Nov, 2022
介绍了一种利用大型语言模型的新软件工具,旨在自动从 Python 代码生成学术文章,这对生物医学信息学和计算机科学领域具有重要意义,可大大提高研究传播效率。
Apr, 2024