ARIES: 同行评审后科学论文修改语料库

Jun, 2023

ARIES: 同行评审后科学论文修改语料库

ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews

Mike D'Arcy, Alexis Ross, Erin Bransom, Bailey Kuehl, Jonathan Bragg...

TL;DR科学论文的修订是一项具有挑战性的任务，需要深入的科学知识和推理能力，本文提出了使用大型语言模型修订论文的任务，并发布了一个评论和对应论文编辑的数据集 ARIES，研究了评论 - 编辑对齐和编辑生成两个版本的任务，并评估了许多基线模型，包括 GPT-4。

Abstract

Revising scientific papers based on peer feedback is a challenging task that requires not only deep scientific knowledge and reasoning, but also the ability to recognize the implicit requests in high-level feedba

scientific papers peer feedback large language models aries dataset edit generation

发现论文，激发创造

arXivEdits: 理解科学写作中的人类修订过程

本文提供了一个完整的计算框架，对科学写作中的文本修订进行了研究，通过构建一个新的带有金标准句子对齐的带注释语料库来揭示了科研人员修订论文的常见策略，并利用自动方法在文档、句子和单词级别上提取修订内容。

Oct, 2022

MARG: 科学论文的多智能体评论生成

通过使用多个 LLM 实例进行内部讨论，我们研究了 LLM 生成科学论文反馈的能力，并开发了一种名为 MARG 的反馈生成方法。在用户研究中，我们的系统显著提高了 GPT-4 生成具体和有帮助反馈的能力，将生成的普通评论的比例从 60％降低到 29％，并每篇论文生成 3.7 条好的评论（提升了 2.2 倍）。

Jan, 2024

CASIMIR: 科学文章语料库，具有多个作者集成修订功能

本研究提出了一个新的文本资源数据集，名为 CASIMIR，其中包含来自 OpenReview 的 15,646 篇科学文章的多个修订版本以及它们的同行评审。这个数据集对科学文章的修订步骤进行了详细的研究，提供了句子级别的对齐和自动提取修订编辑的功能，同时对评估方法进行了质疑。

Mar, 2024

一个同行评审数据集（PeerRead）：收集、见解和 NLP 应用

本文介绍了一个公开的科学领域数据集，提供了许多研究机会，该数据集集中在同行评审中使用的文本数据，此外，作者提出了两个基于 NLP 技术的新任务，包括简单的基准模型，第一个任务中，简单模型可以预测文章是否被接受，并且还可以在第二个任务中预测审稿方面的数值分数。

Apr, 2018

大型语言模型能否给研究论文提供有用反馈？一个大规模实证分析

使用 GPT-4 模型创建了一个自动化平台，通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。在两项大规模研究中，我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较，并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。总体而言，超过半数的用户（57.4%）认为 GPT-4 生成的反馈有所帮助，82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。

Oct, 2023

大规模监测 AI 修改内容：基于 ChatGPT 对人工智能会议同行评审的影响案例研究

我们提出了一种方法，用于估计大语言模型（LLM）在大型语料库中可能被大量修改或生成的文本比例。通过利用专家编写和 AI 生成的参考文本，我们的最大似然模型能够准确而高效地检查语料库级别上真实世界中 LLM 的使用。我们将这种方法应用于 ChatGPT: ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023 发布之后 AI 会议中的科学同行评议案例研究。我们的研究结果表明，在提交给这些会议的同行评议文本中，有 6.5％到 16.9％的文本可能是由 LLMs 进行了大幅修改，即超出了拼写检查或轻微修改的范围。生成文本出现的情况可以揭示用户行为：在对作者回复不太可能做出回应的评审人员提交的、截止日期接近的评审中，LLM 生成的文本比例更高。我们还观察到生成文本的语料库级别趋势，这些趋势可能在个体级别上难以察觉，并讨论了这些趋势对同行评议的影响。我们呼吁未来的跨学科工作来研究 LLM 的使用如何改变我们的信息和知识实践。

Mar, 2024

ARES：一种用于检索增强生成系统的自动化评估框架

通过使用综合训练数据，ARES 通过微调轻量级语言模型评估 RAG 组件的质量，在 KILT 和 SuperGLUE 两个领域多任务中准确评估 RAG 系统的有效性。

Nov, 2023

软件元数据的生成型人工智能：FIRE 2023 软件工程信息检索赛道综述

在软件工程中的信息检索（IRSE）领域，通过基于人类和大型语言模型生成的标签的机器学习框架，开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务，将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果，并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差，但能得到更少过拟合的结果。

Oct, 2023

揭示哨兵：评估人工智能在网络安全同行评议中的表现

本研究通过比较人工评审者和机器学习模型得出的结果，研究了 AI 在学术安全会议评审中的表现，并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础，评估了文献评审结果的预测能力，发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT，达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制，并探索了文献评审过程中能够从自动化支持方法中获益的领域，同时也认识到在某些方面，尖端 AI 技术无法替代人类智慧的不可替代角色。

Sep, 2023

GPT4 对同行评审辅助略有帮助：一项试点研究

本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性，并发现人工智能可以对同行评审过程做出有效的贡献，为解决同行评审中资源限制问题提供了新途径。

Jun, 2023