揭示哨兵：评估人工智能在网络安全同行评议中的表现

Sep, 2023

揭示哨兵：评估人工智能在网络安全同行评议中的表现

Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer Review

Liang Niu, Nian Xue, Christina Pöpper

TL;DR本研究通过比较人工评审者和机器学习模型得出的结果，研究了 AI 在学术安全会议评审中的表现，并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础，评估了文献评审结果的预测能力，发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT，达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制，并探索了文献评审过程中能够从自动化支持方法中获益的领域，同时也认识到在某些方面，尖端 AI 技术无法替代人类智慧的不可替代角色。

Abstract

peer review is the method employed by the scientific community for evaluating research advancements. In the field of cybersecurity, the practice of double-blind →

peer review cybersecurity ai review outcome prediction automated support

发现论文，激发创造

AI 中介同行评审伦理的批判性审视

近期的人工智能进展为学术同行评审带来了机遇与风险，讨论主要围绕在学术期刊出版中的剽窃和作者权益，忽视了同行评审所处的更广泛的认知、社会、文化和社会认知等问题；论文强调了：AI 驱动的同行评审的合法性需要进行批判性评估，包括其在更广泛的认知、社会、道德和法规因素上的利弊，并与学术社区中定义适当行为的道德和认知规范的一致性。

Sep, 2023

GPT4 对同行评审辅助略有帮助：一项试点研究

本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性，并发现人工智能可以对同行评审过程做出有效的贡献，为解决同行评审中资源限制问题提供了新途径。

Jun, 2023

可以自动化科学审稿吗？

本文讨论如何运用自然语言处理技术，自动生成机器学习领域的论文评审。通过收集论文数据集和训练模型进行实验，研究发现自动生成的评审可以涵盖更多的内容，但在细节方面需要更高的准确性和构造性。最后，总结了这个领域的八个难题及其潜在解决方案。

Jan, 2021

RelevAI-Reviewer：一项关于调查论文相关性的人工智能评审基准测试

提出了一种自动系统，将调查论文审查任务概念化为一个分类问题，采用机器学习模型测定与指定主题相关的论文的相关性，并且通过使用 BERT 等高级语言模型，取得了优于传统机器学习方法的初步结果。

Jun, 2024

大规模监测 AI 修改内容：基于 ChatGPT 对人工智能会议同行评审的影响案例研究

我们提出了一种方法，用于估计大语言模型（LLM）在大型语料库中可能被大量修改或生成的文本比例。通过利用专家编写和 AI 生成的参考文本，我们的最大似然模型能够准确而高效地检查语料库级别上真实世界中 LLM 的使用。我们将这种方法应用于 ChatGPT: ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023 发布之后 AI 会议中的科学同行评议案例研究。我们的研究结果表明，在提交给这些会议的同行评议文本中，有 6.5％到 16.9％的文本可能是由 LLMs 进行了大幅修改，即超出了拼写检查或轻微修改的范围。生成文本出现的情况可以揭示用户行为：在对作者回复不太可能做出回应的评审人员提交的、截止日期接近的评审中，LLM 生成的文本比例更高。我们还观察到生成文本的语料库级别趋势，这些趋势可能在个体级别上难以察觉，并讨论了这些趋势对同行评议的影响。我们呼吁未来的跨学科工作来研究 LLM 的使用如何改变我们的信息和知识实践。

Mar, 2024

大型会议上的论文与审稿人匹配

本文研究了一种新颖的评审 - 文章匹配方法，该方法已被引入多个计算机科学领域的顶级会议，包括 AAAI，ICML，IJCAI 等，并通过对现实数据的广泛后期分析进行了评估，比较了其与 AAAI 2020 版本使用的匹配算法的不同之处。

Feb, 2022

对同行评审中公平性差异的研究：一种语言模型增强方法

本文通过大型语言模型（LMs）彻底研究和研究了同行评审中的公平性差异问题，在多个受保护属性的兴趣下，包括作者性别，地理，作者和机构声望等方面，观察到差异水平不同，文本特征在减少偏见中是必不可少的，同时研究了同行评审过程的自动化机器评审系统的一个具体例子，并提供了评审生成和评分任务的基准模型，这个数据集可用作基准。

Nov, 2022

自然语言处理对同行评审有何用处？

科学文章数量快速增长，对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错，自然语言处理（NLP）在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础，讨论了同行评审的一般过程，以 AI 会议的审稿为例，详细阐述了从文稿提交到定稿的每个步骤，讨论了 NLP 协助的挑战和机遇，提出了 NLP 同行评审面临的大型挑战，包括数据获取、运营和实验、伦理问题，并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后，我们呼吁科学界、NLP 和 AI 研究人员、政策制定者和资助机构共同努力推动 NLP 同行评审的研究，希望我们的工作能够在 AI 时代为机器辅助的科学质量控制设定议程，不仅仅限于 NLP 社区。

May, 2024

评估 ChatGPT 在系统性综述文章筛选方面的能力

本报告提出一种利用最新技术发展自动化 Systematic Reviews 筛选的方法，通过与传统分类器相比较的一系列实验，证明了 ChatGPT 成为自动化 SR 过程的一种可行选择，但需要开发人员仔细考虑在 SR 工具中集成 ChatGPT 的情况。

Jul, 2023

使用大语言模型自动筛选临床评审论文

通过比较 OpenAI GPT API 对临床评论文章标题和摘要的筛选效果和两位独立人工审核的效果，我们发现使用 OpenAI GPT API 可以显著提高临床评论的筛选效率和准确性。

May, 2023