ARIES: 同行评审后科学论文修改语料库
本文提供了一个完整的计算框架,对科学写作中的文本修订进行了研究,通过构建一个新的带有金标准句子对齐的带注释语料库来揭示了科研人员修订论文的常见策略,并利用自动方法在文档、句子和单词级别上提取修订内容。
Oct, 2022
通过使用多个 LLM 实例进行内部讨论,我们研究了 LLM 生成科学论文反馈的能力,并开发了一种名为 MARG 的反馈生成方法。在用户研究中,我们的系统显著提高了 GPT-4 生成具体和有帮助反馈的能力,将生成的普通评论的比例从 60%降低到 29%,并每篇论文生成 3.7 条好的评论(提升了 2.2 倍)。
Jan, 2024
本研究提出了一个新的文本资源数据集,名为 CASIMIR,其中包含来自 OpenReview 的 15,646 篇科学文章的多个修订版本以及它们的同行评审。这个数据集对科学文章的修订步骤进行了详细的研究,提供了句子级别的对齐和自动提取修订编辑的功能,同时对评估方法进行了质疑。
Mar, 2024
本文介绍了一个公开的科学领域数据集,提供了许多研究机会,该数据集集中在同行评审中使用的文本数据,此外,作者提出了两个基于 NLP 技术的新任务,包括简单的基准模型,第一个任务中,简单模型可以预测文章是否被接受,并且还可以在第二个任务中预测审稿方面的数值分数。
Apr, 2018
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
我们提出了一种方法,用于估计大语言模型(LLM)在大型语料库中可能被大量修改或生成的文本比例。通过利用专家编写和 AI 生成的参考文本,我们的最大似然模型能够准确而高效地检查语料库级别上真实世界中 LLM 的使用。我们将这种方法应用于 ChatGPT: ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023 发布之后 AI 会议中的科学同行评议案例研究。我们的研究结果表明,在提交给这些会议的同行评议文本中,有 6.5%到 16.9%的文本可能是由 LLMs 进行了大幅修改,即超出了拼写检查或轻微修改的范围。生成文本出现的情况可以揭示用户行为:在对作者回复不太可能做出回应的评审人员提交的、截止日期接近的评审中,LLM 生成的文本比例更高。我们还观察到生成文本的语料库级别趋势,这些趋势可能在个体级别上难以察觉,并讨论了这些趋势对同行评议的影响。我们呼吁未来的跨学科工作来研究 LLM 的使用如何改变我们的信息和知识实践。
Mar, 2024
通过使用综合训练数据,ARES 通过微调轻量级语言模型评估 RAG 组件的质量,在 KILT 和 SuperGLUE 两个领域多任务中准确评估 RAG 系统的有效性。
Nov, 2023
在软件工程中的信息检索(IRSE)领域,通过基于人类和大型语言模型生成的标签的机器学习框架,开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务,将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果,并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差,但能得到更少过拟合的结果。
Oct, 2023
本研究通过比较人工评审者和机器学习模型得出的结果,研究了 AI 在学术安全会议评审中的表现,并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础,评估了文献评审结果的预测能力,发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT,达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制,并探索了文献评审过程中能够从自动化支持方法中获益的领域,同时也认识到在某些方面,尖端 AI 技术无法替代人类智慧的不可替代角色。
Sep, 2023
本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性,并发现人工智能可以对同行评审过程做出有效的贡献,为解决同行评审中资源限制问题提供了新途径。
Jun, 2023