ChatGPT 能评估研究质量吗？

Feb, 2024

Can ChatGPT evaluate research quality?

Mike Thelwall

TL;DRChatGPT 4.0 在评估期刊文章上进行研究评估的准确性方面仍不足，需要进一步改进和控制使用。

Abstract

Purpose: Assess whether chatgpt 4.0 is accurate enough to perform research evaluations on journal articles to automate this time-consuming task. Design/methodology/approach: Test the extent to which ChatGPT-4 can

chatgpt 4.0 research evaluations journal articles quality assessment uk research excellence framework (ref) 2021

发现论文，激发创造

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法，实验证明 ChatGPT 能够有效地从不同角度评估文本质量，尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是，直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。

Apr, 2023

使用 ChatGPT 进行类人摘要评估

通过四种人类评估方法对五个数据集上的文本摘要进行评估，研究探讨了 ChatGPT 在人类化摘要评估方面的表现，ChatGPT 优于某些数据集上常用的自动评估指标。此外，研究还分析了不同提示对结果的影响，并与人工评估结果进行了比较，从而探讨了生成的解释和无效响应。

Apr, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT 在需求信息检索中的初步评估

本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估，探讨生成式大语言模型在自然语言处理领域对需求工程的影响，结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。

Apr, 2023

ChatGPT 是专家们的杰出工具

本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力，重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险，而作者提出了使用流程建议，对输出进行独立验证，并建议专家使用该工具。

Jun, 2023

使用 ChatGPT3 作为学生论文写作辅助工具：让您的论文变得更好

探究使用 ChatGPT-3 作为写作辅助工具与否对学生的论文写作表现的影响，结果表明，在大多数参数下，控制组优于实验组。

Feb, 2023

在 ChatGPT 中我们信任吗？测量和表征 ChatGPT 的可靠性

本篇论文对 ChatGPT 进行了可靠性的大规模实验，在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大，尤其在法律和科学方面表现不佳，还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性，这是加强大型语言模型可靠性和安全性的必要性。

Apr, 2023

GPT4 对同行评审辅助略有帮助：一项试点研究

本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性，并发现人工智能可以对同行评审过程做出有效的贡献，为解决同行评审中资源限制问题提供了新途径。

Jun, 2023