GPT4 对同行评审辅助略有帮助：一项试点研究

Jun, 2023

GPT4 对同行评审辅助略有帮助：一项试点研究

GPT4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study

Zachary Robertson

TL;DR本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性，并发现人工智能可以对同行评审过程做出有效的贡献，为解决同行评审中资源限制问题提供了新途径。

Abstract

In this pilot study, we investigate the use of gpt4 to assist in the peer-review process. Our key hypothesis was that GPT-generated reviews could achieve comparable helpfulness to human reviewers. By comparing re

gpt4 peer-review process machine learning artificial intelligence resource constraints

发现论文，激发创造

一种基于 GPT 的编程语言学习的代码审查系统

通过使用 GPT-4 生成代码评审，提供学习者友好的代码评审并减少 AI 辅助作弊的风险，这项研究旨在应对对编程语言教育的不断增长的需求和日益庞大的班级规模对即时且个性化反馈的迫切需求。

Jun, 2024

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023

大型语言模型能否给研究论文提供有用反馈？一个大规模实证分析

使用 GPT-4 模型创建了一个自动化平台，通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。在两项大规模研究中，我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较，并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。总体而言，超过半数的用户（57.4%）认为 GPT-4 生成的反馈有所帮助，82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。

Oct, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Oct, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

使用大语言模型自动筛选临床评审论文

通过比较 OpenAI GPT API 对临床评论文章标题和摘要的筛选效果和两位独立人工审核的效果，我们发现使用 OpenAI GPT API 可以显著提高临床评论的筛选效率和准确性。

May, 2023

ChatGPT-4 作为评审西班牙学术书籍的工具

ChatGPT-4 作为一种编辑工具被评估其在西班牙文学和学术书籍中的潜力，研究分析了 ChatGPT-4 在语法纠正、文体连贯性和西班牙文本语义丰富性方面的特点和能力，并发现 ChatGPT-4 在语法和拼写纠正方面具有高准确性和快速性，但在上下文敏感性、文献计量分析、深层语境理解和与视觉内容（如图表）的互动等领域仍面临挑战。然而，研究认为 ChatGPT-4 与人类审核员和编辑之间的合作可以提高效率而不降低质量。此外，作者认为 ChatGPT-4 在编辑过程中是一种有价值的工具，但其使用应与人类编辑员的工作相辅相成，以确保西班牙文学和学术书籍的高质量编辑。

Sep, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023