- AgentReview:使用 LLM 代理探索同行评审动态
我们引介了 AgentReview,这是第一个基于大型语言模型(LLM)的同行评审模拟框架,可以有效地解开多个潜在因素的影响并解决隐私问题。研究揭示了诸多重要发现,包括考虑到社会学理论,如社会影响理论、利他主义疲劳和权威偏见,由于审稿人的偏 - RelevAI-Reviewer:一项关于调查论文相关性的人工智能评审基准测试
提出了一种自动系统,将调查论文审查任务概念化为一个分类问题,采用机器学习模型测定与指定主题相关的论文的相关性,并且通过使用 BERT 等高级语言模型,取得了优于传统机器学习方法的初步结果。
- 自然语言处理对同行评审有何用处?
科学文章数量快速增长,对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错,自然语言处理(NLP)在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础,讨论了同行评审的一般过程,以 - 探索科学情绪摘要的多文档信息整合
基于三层框架的科学情感总结方式,本研究提出了评估生成的元评价的质量的评估指标,并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。
- PRE: 基于同行评审的大型语言模型评估器
通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。
- 挑战设计路线图
挑战可以被看作是一种激励参与者解决严肃任务的游戏,竞争组织者必须制定有效的游戏规则,并且这些规则有多个目标,除了使游戏对参与者有趣之外,还可能包括解决现实问题、推进科学或技术领域、进行科学发现和教育公众。本文提供了为挑战创建强大计划的指南。
- 揭示哨兵:评估人工智能在网络安全同行评议中的表现
本研究通过比较人工评审者和机器学习模型得出的结果,研究了 AI 在学术安全会议评审中的表现,并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础,评估了文献评审结果的预测能力,发现 Doc2Vec 方法的实验评估表现明显 - AI 中介同行评审伦理的批判性审视
近期的人工智能进展为学术同行评审带来了机遇与风险,讨论主要围绕在学术期刊出版中的剽窃和作者权益,忽视了同行评审所处的更广泛的认知、社会、文化和社会认知等问题;论文强调了:AI 驱动的同行评审的合法性需要进行批判性评估,包括其在更广泛的认知、 - 估计提前上传 arXiv 对论文被接受的因果效应
研究了在同行评审前发布预印本的影响,使用因果推断的方法分析 ICLR 会议(2018-2022)的数据,发现早期发布预印本可能对论文的接受率有少许影响,但该影响不受作者引用次数和机构排名这些因素的影响。
- 审稿人分配问题:范围审查
本文对近三十年来计算方法和算法寻找合适同行评审者,解决同行评审分配困难的问题 (RAP) 的研究进行了综述和探讨,并提出进一步的研究方向。
- 指数族估计的保序机制
本文基于 Isotonic 机制,将指定排序扩展到指数族分布,以增强机器学习和人工智能会议的同行评审,并通过证明利益相关者因为需要提供调整过的审查分数的加权排名而被激励提供准确的排序,证明了基于排序的任实信息挖掘的最优性, 并表明调整分数显 - 人工智能是否能够取代伽马射线天体物理学家的工作?
该研究评估了现有的顶尖 Transformer 模型生成一篇关于探测一个不存在的 IACT 阵列脉冲星风星云的论文的能力,以此评估这种模型根据语言信息独立解释天文观测及其他信息的能力,并评估通过这些工具生成的虚假科学论文可能被识别的潜在手段 - 用机器学习预测文章质量得分:英国研究卓越框架
利用人工智能和多个引文计量和元数据输入进行的质量估计,与简单的定量指标和耗费时间的同行评审相比,得出更好的结果;医学和物理学科的精度最高,社会科学、数学、工程、艺术和人文学科的表现较差。
- NLPeer: 同行评审计算研究的统一资源
NLPeer 是第一个伦理资源资料来源跨领域的超过 5k 篇论文和 11k 篇来自五个不同论文场馆的审稿报告,它建立了统一的数据表示,并且增加了富元数据和版本信息,这项工作为 NLP 及其他领域的同行评议的系统性、多方面、以证据为基础的研究 - 面向审稿人推荐系统的提交感知评审人画像
本文提出了一种基于上下文学习的评审人匹配方法,解决了用主题建模进行评审者指派时主题上下文信息丢失和难以解释的问题,并在实验中取得了显著的精度提高。
- 同行评审中恶意论文竞标数据集
本文研究了同行评审中的恶意评审行为问题,提出了一种基于通过构建数据集来监测恶意出价的方法,并基于该数据集分析了出价行为,并提出一些简单的检测算法以检测恶意出价。
- ACL会议同行评审中论文评审分配应依据何种因素?社区对议题和理想的看法
本调查是关于 NLP 社区对于同行评审匹配系统中应该考虑的因素,旨在为改进未来的 NLP 会议提供可行建议和可解释的同行评审分配的愿景。
- 修订和重新提交:基于文本的同行评审合作的互文模型
提出了第一个基于文本协作的互文模型,涵盖了同行评审的三个重要现象:实用标记、链接和长文档版本对齐,在期刊风格的发表后开放的同行评审中,我们实例化了我们提出的模型并提供了详细的洞察力。
- EMNLPYes-Yes-Yes:ACL 滚动审核及其它领域主动数据收集
本文介绍了一种基于捐赠机制的主动数据收集方法,以解决少有公开数据时 NLP 领域中的数据匮乏问题,并将此方法应用于 ACL Rolling Review,从而有效地增加其数据集大小,同时考虑其道德和法律要求,并就该方法引入的偏见进行了实证研 - 会议同行评审中的不一致性:重访 2014 年 NeurIPS 实验
通过重新分析 2014 年 NeurIPS 的实验数据,我们确定评审人员的质量评分中 50% 的变化存在主观因素。我们发现评分与论文影响力之间存在相关性,但会议接受的论文中二者之间不存在关联。此外,我们得出结论,2014 年会议的评审过程能