科学同行评审中的论证自动分析

Nov, 2023

Automatic Analysis of Substantiation in Scientific Peer Reviews

Yanzhu Guo, Guokan Shang, Virgile Rennard, Michalis Vazirgiannis, Chloé Clavel

TL;DR通过对科学同行评审中的主张-证据匹配进行自动化评估，解决了顶级人工智能会议中存在的问题性同行评审数量的增加以及缺乏自动化质量控制措施的紧迫需求。

Abstract

With the increasing amount of problematic peer reviews in top AI conferences, the community is urgently in need of automatic quality control measures. In this paper, we restrict our attention to →

发现论文，激发创造

一个同行评审数据集（PeerRead）：收集、见解和NLP应用

本文介绍了一个公开的科学领域数据集，提供了许多研究机会，该数据集集中在同行评审中使用的文本数据，此外，作者提出了两个基于NLP技术的新任务，包括简单的基准模型，第一个任务中，简单模型可以预测文章是否被接受，并且还可以在第二个任务中预测审稿方面的数值分数。

Apr, 2018

理解同行评审的论据挖掘

本文介绍了通过自动检测审稿人提出的论点和类型来研究同行评审过程的内容和结构，从而评估其效率和功效。作者首先收集了来自机器学习和自然语言处理领域的14.2K份审稿意见，并对其中的400份进行了注释，最终得出了一些结论并提出了未来新的挑战。

Mar, 2019

从修订中学习：大规模论证中主张质量评估

本文提出一种计算论证的质量评估方法，通过比较同一主张的不同版本来评定其质量，证明能够有效泛化于不同主题之间。该方法基于大规模样本库及嵌入式逻辑回归和基于Transformer的神经网络，并提供数据和脚本以复现结果。

Jan, 2021

对同行评审中公平性差异的研究：一种语言模型增强方法

本文通过大型语言模型（LMs）彻底研究和研究了同行评审中的公平性差异问题，在多个受保护属性的兴趣下，包括作者性别，地理，作者和机构声望等方面，观察到差异水平不同，文本特征在减少偏见中是必不可少的，同时研究了同行评审过程的自动化机器评审系统的一个具体例子，并提供了评审生成和评分任务的基准模型，这个数据集可用作基准。

Nov, 2022

NLPeer: 同行评审计算研究的统一资源

NLPeer是第一个伦理资源资料来源跨领域的超过5k篇论文和11k篇来自五个不同论文场馆的审稿报告，它建立了统一的数据表示，并且增加了富元数据和版本信息，这项工作为NLP及其他领域的同行评议的系统性、多方面、以证据为基础的研究铺平了道路。我们将NLPeer公开提供。

Nov, 2022

MOPRD：一个多学科开放式同行评审数据集

通过构建跨领域的开放同行评审数据集MOPRD，我们设计了一种基于此的模块化指导式评论生成方法，这种方法在自动衡量和人类评估中都具有更好的性能，并探索了MOPRD的其他潜在应用，包括元审查生成、编辑意见预测、作者反驳生成和科学计量学分析。

Dec, 2022

科学同行评审中的评审者分歧发现

自动识别同行评审者之间的矛盾的研究，介绍了一个新颖的任务，通过对评论对之间的矛盾进行检测，为此我们提出了一个基准模型，并公开了数据集和代码供进一步研究。

Oct, 2023

自然语言处理对同行评审有何用处？

科学文章数量快速增长，对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错，自然语言处理（NLP）在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的NLP同行评审努力奠定基础，讨论了同行评审的一般过程，以AI会议的审稿为例，详细阐述了从文稿提交到定稿的每个步骤，讨论了NLP协助的挑战和机遇，提出了NLP同行评审面临的大型挑战，包括数据获取、运营和实验、伦理问题，并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后，我们呼吁科学界、NLP和AI研究人员、政策制定者和资助机构共同努力推动NLP同行评审的研究，希望我们的工作能够在AI时代为机器辅助的科学质量控制设定议程，不仅仅限于NLP社区。

May, 2024

GLIMPSE: 学术评论的实用多文档摘要

提出了一种旨在提供学术评论综述的简明方法，该方法通过引入新颖的唯一性评分来提取评论中相关的句子，从而提供一个全面而平衡的观点，并在人类评估中显示出比基准方法更有区别性的摘要，并在自动评价指标方面具有可比较的性能。

Jun, 2024

PeerArg：基于大型语言模型的论证性同行评审

本研究解决了现有同行评审过程中的主观性和偏见问题。提出的新颖PeerArg系统结合了大型语言模型和知识表示方法，改进了评审和决策过程。研究结果表明，PeerArg系统在论文接受预测方面优于现有的端到端大型语言模型。

Sep, 2024