GPT4 对同行评审辅助略有帮助:一项试点研究
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
通过比较 OpenAI GPT API 对临床评论文章标题和摘要的筛选效果和两位独立人工审核的效果,我们发现使用 OpenAI GPT API 可以显著提高临床评论的筛选效率和准确性。
May, 2023
ChatGPT-4 作为一种编辑工具被评估其在西班牙文学和学术书籍中的潜力,研究分析了 ChatGPT-4 在语法纠正、文体连贯性和西班牙文本语义丰富性方面的特点和能力,并发现 ChatGPT-4 在语法和拼写纠正方面具有高准确性和快速性,但在上下文敏感性、文献计量分析、深层语境理解和与视觉内容(如图表)的互动等领域仍面临挑战。然而,研究认为 ChatGPT-4 与人类审核员和编辑之间的合作可以提高效率而不降低质量。此外,作者认为 ChatGPT-4 在编辑过程中是一种有价值的工具,但其使用应与人类编辑员的工作相辅相成,以确保西班牙文学和学术书籍的高质量编辑。
Sep, 2023
本文使用 GPT-4 进行了多项实验来生成计算机代码,发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时,使用 GPT-4 进行代码改进可以显著提高代码质量,但生成的测试仍需要人类验证。
Apr, 2023
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023
本研究通过比较人工评审者和机器学习模型得出的结果,研究了 AI 在学术安全会议评审中的表现,并以 ChatGPT 和基于 Doc2Vec 模型的两阶段分类方法为基础,评估了文献评审结果的预测能力,发现 Doc2Vec 方法的实验评估表现明显优于 ChatGPT,达到了超过 90% 的准确率。同时分析了测试的 ML 模型的潜在优势和限制,并探索了文献评审过程中能够从自动化支持方法中获益的领域,同时也认识到在某些方面,尖端 AI 技术无法替代人类智慧的不可替代角色。
Sep, 2023