NIPS 2016 Review Process 的设计和分析
本文发表了 NeurIPS 2021 一致性实验的结果,该实验探讨了会议评审过程的随机性,研究表明增加会议的筛选力度可能会增加此过程的任意性,强调了客观衡量研究质量的难度,并建议作者不要被拒绝的作品过度打击。
Jun, 2023
通过重新分析 2014 年 NeurIPS 的实验数据,我们确定评审人员的质量评分中 50% 的变化存在主观因素。我们发现评分与论文影响力之间存在相关性,但会议接受的论文中二者之间不存在关联。此外,我们得出结论,2014 年会议的评审过程能较好地识别差论文,但无法准确识别好论文。
Sep, 2021
本文介绍了一个公开的科学领域数据集,提供了许多研究机会,该数据集集中在同行评审中使用的文本数据,此外,作者提出了两个基于 NLP 技术的新任务,包括简单的基准模型,第一个任务中,简单模型可以预测文章是否被接受,并且还可以在第二个任务中预测审稿方面的数值分数。
Apr, 2018
本文讨论如何运用自然语言处理技术,自动生成机器学习领域的论文评审。通过收集论文数据集和训练模型进行实验,研究发现自动生成的评审可以涵盖更多的内容,但在细节方面需要更高的准确性和构造性。最后,总结了这个领域的八个难题及其潜在解决方案。
Jan, 2021
科学文章数量快速增长,对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错,自然语言处理(NLP)在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础,讨论了同行评审的一般过程,以 AI 会议的审稿为例,详细阐述了从文稿提交到定稿的每个步骤,讨论了 NLP 协助的挑战和机遇,提出了 NLP 同行评审面临的大型挑战,包括数据获取、运营和实验、伦理问题,并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后,我们呼吁科学界、NLP 和 AI 研究人员、政策制定者和资助机构共同努力推动 NLP 同行评审的研究,希望我们的工作能够在 AI 时代为机器辅助的科学质量控制设定议程,不仅仅限于 NLP 社区。
May, 2024
NLPeer 是第一个伦理资源资料来源跨领域的超过 5k 篇论文和 11k 篇来自五个不同论文场馆的审稿报告,它建立了统一的数据表示,并且增加了富元数据和版本信息,这项工作为 NLP 及其他领域的同行评议的系统性、多方面、以证据为基础的研究铺平了道路。我们将 NLPeer 公开提供。
Nov, 2022
本文研究了一种新颖的评审 - 文章匹配方法,该方法已被引入多个计算机科学领域的顶级会议,包括 AAAI,ICML,IJCAI 等,并通过对现实数据的广泛后期分析进行了评估,比较了其与 AAAI 2020 版本使用的匹配算法的不同之处。
Feb, 2022
本研究通过比较人工评审者和机器学习模型得出的结果,研究了 AI 在学术安全会议评审中的表现,并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础,评估了文献评审结果的预测能力,发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT,达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制,并探索了文献评审过程中能够从自动化支持方法中获益的领域,同时也认识到在某些方面,尖端 AI 技术无法替代人类智慧的不可替代角色。
Sep, 2023
本文介绍了 2019 年 NeurIPS 会议针对机器学习研究推出的可重复性计划,包括代码提交政策、全社区可重复性挑战和将机器学习可重复性清单作为论文提交过程的一部分,阐述了每个组件的部署以及我们从这个计划中学到了什么。
Mar, 2020