本文介绍了一个公开的科学领域数据集,提供了许多研究机会,该数据集集中在同行评审中使用的文本数据,此外,作者提出了两个基于NLP技术的新任务,包括简单的基准模型,第一个任务中,简单模型可以预测文章是否被接受,并且还可以在第二个任务中预测审稿方面的数值分数。
Apr, 2018
本文讨论如何运用自然语言处理技术,自动生成机器学习领域的论文评审。通过收集论文数据集和训练模型进行实验,研究发现自动生成的评审可以涵盖更多的内容,但在细节方面需要更高的准确性和构造性。最后,总结了这个领域的八个难题及其潜在解决方案。
Jan, 2021
本文介绍了 PeerSum,这是一个使用科学出版物的同行评审的新 MDS 数据集。与现有的 MDS 数据集不同,我们的摘要(即元评审)具有高度抽象性,是源文件的真实摘要(即评论),并且还包括源文件之间的争议。我们发现,目前最先进的 MDS 模型在生成 PeerSum 的高质量摘要方面存在困难,提供了新的研究机会。
Mar, 2022
提出了第一个基于文本协作的互文模型,涵盖了同行评审的三个重要现象:实用标记、链接和长文档版本对齐,在期刊风格的发表后开放的同行评审中,我们实例化了我们提出的模型并提供了详细的洞察力。
Apr, 2022
NLPeer是第一个伦理资源资料来源跨领域的超过5k篇论文和11k篇来自五个不同论文场馆的审稿报告,它建立了统一的数据表示,并且增加了富元数据和版本信息,这项工作为NLP及其他领域的同行评议的系统性、多方面、以证据为基础的研究铺平了道路。我们将NLPeer公开提供。
Nov, 2022
本文介绍 PeerSum 数据集以生成高度抽象的科学论文审稿的 meta-reviews,并介绍了 Rammer 模型来通过稀疏注意力机制预测元数据特征,从而提高多文档摘要系统的能力。
May, 2023
为了改进文献综述的多文件摘要(MDS),引入包含人工评估的摘要质量特征和成对偏好的数据集,以支持开发更好的自动评估方法,分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。
我们提出了科学观点总结的任务,并使用新的ORSUM数据集和Checklist-guided Iterative Introspection (CGI²)方法来实现该任务
通过对科学同行评审中的主张-证据匹配进行自动化评估,解决了顶级人工智能会议中存在的问题性同行评审数量的增加以及缺乏自动化质量控制措施的紧迫需求。
Nov, 2023
基于三层框架的科学情感总结方式,本研究提出了评估生成的元评价的质量的评估指标,并在广泛实验证明通过将此框架作为LLMs的提示生成元评价的假设在实证中是可行的。
Feb, 2024