PeerArg：基于大型语言模型的论证性同行评审

Sep, 2024

PeerArg：基于大型语言模型的论证性同行评审

PeerArg: Argumentative Peer Review with LLMs

Purin Sukpanichnant, Anna Rapberger, Francesca Toni

TL;DR本研究解决了现有同行评审过程中的主观性和偏见问题。提出的新颖PeerArg系统结合了大型语言模型和知识表示方法，改进了评审和决策过程。研究结果表明，PeerArg系统在论文接受预测方面优于现有的端到端大型语言模型。

Abstract

Peer Review is an essential process to determine the quality of papers submitted to scientific conferences or journals. However, it is subjective and prone to biases. Several studies have been conducted to apply techniques from NLP to support →

发现论文，激发创造

一个同行评审数据集（PeerRead）：收集、见解和NLP应用

本文介绍了一个公开的科学领域数据集，提供了许多研究机会，该数据集集中在同行评审中使用的文本数据，此外，作者提出了两个基于NLP技术的新任务，包括简单的基准模型，第一个任务中，简单模型可以预测文章是否被接受，并且还可以在第二个任务中预测审稿方面的数值分数。

Apr, 2018

理解同行评审的论据挖掘

本文介绍了通过自动检测审稿人提出的论点和类型来研究同行评审过程的内容和结构，从而评估其效率和功效。作者首先收集了来自机器学习和自然语言处理领域的14.2K份审稿意见，并对其中的400份进行了注释，最终得出了一些结论并提出了未来新的挑战。

Mar, 2019

对同行评审中公平性差异的研究：一种语言模型增强方法

本文通过大型语言模型（LMs）彻底研究和研究了同行评审中的公平性差异问题，在多个受保护属性的兴趣下，包括作者性别，地理，作者和机构声望等方面，观察到差异水平不同，文本特征在减少偏见中是必不可少的，同时研究了同行评审过程的自动化机器评审系统的一个具体例子，并提供了评审生成和评分任务的基准模型，这个数据集可用作基准。

Nov, 2022

NLPeer: 同行评审计算研究的统一资源

NLPeer是第一个伦理资源资料来源跨领域的超过5k篇论文和11k篇来自五个不同论文场馆的审稿报告，它建立了统一的数据表示，并且增加了富元数据和版本信息，这项工作为NLP及其他领域的同行评议的系统性、多方面、以证据为基础的研究铺平了道路。我们将NLPeer公开提供。

Nov, 2022

科学同行评审中的论证自动分析

通过对科学同行评审中的主张-证据匹配进行自动化评估，解决了顶级人工智能会议中存在的问题性同行评审数量的增加以及缺乏自动化质量控制措施的紧迫需求。

Nov, 2023

优化评审生成通过提示生成

我们提出了一种高效的两阶段审稿生成框架Reviewer2，通过明确建模审稿可能涉及的各个方面的分布来生成更详细、更全面的审稿，解决了自动审稿生成方法缺乏细节和评述范围与人工评审者相比较少的问题。

Feb, 2024

从学术手稿的同行评审叙事中引导LLMs撰写元评审草稿

通过案例研究，使用GPT-3.5、LLaMA2和PaLM2等三种大型语言模型根据TELeR分类法的不同类型/级别的引导，自动生成学术同行评审中的元评审，然后对元评审进行详细的定性研究，总结了在这一复杂任务中为大型语言模型提供引导的发现和建议。

Feb, 2024

自然语言处理对同行评审有何用处？

科学文章数量快速增长，对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错，自然语言处理（NLP）在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的NLP同行评审努力奠定基础，讨论了同行评审的一般过程，以AI会议的审稿为例，详细阐述了从文稿提交到定稿的每个步骤，讨论了NLP协助的挑战和机遇，提出了NLP同行评审面临的大型挑战，包括数据获取、运营和实验、伦理问题，并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后，我们呼吁科学界、NLP和AI研究人员、政策制定者和资助机构共同努力推动NLP同行评审的研究，希望我们的工作能够在AI时代为机器辅助的科学质量控制设定议程，不仅仅限于NLP社区。

May, 2024

利用大型语言模型引发信息丰富的文本评价

利用大型语言模型，本研究引入了两种机制，即生成式同伴预测机制（GPPM）和生成式简介同伴预测机制（GSPPM），以扩大同伴预测机制的应用范围至基于文本的报告，并理论上证明当语言模型预测足够准确时，该机制能够激励高质量的反馈。在实证研究中使用了Yelp评论数据集和ICLR OpenReview数据集，结果表明在ICLR数据集上，该机制能够根据期望得分区分人工编写的评论、GPT-4生成的评论和GPT-3.5生成的评论，并且GSPPM比GPPM更有效地惩罚产生自语言模型的评论。

May, 2024

使用基于角色的互动进行多轮和长上下文的同行评审

我们提出了将同行评审过程重新定义为多轮长上下文对话，并在这个重新定义的同行评审框架下开发了一系列用于评估大型语言模型性能的指标，以适应真实世界中的同行评审的迭代和互动特点。

Jun, 2024