GPTEval: ChatGPT 和 GPT-4 评估调查

Aug, 2023

GPTEval: A Survey on Assessments of ChatGPT and GPT-4

Rui Mao, Guanyi Chen, Xulang Zhang, Frank Guerin, Erik Cambria

TL;DR对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Abstract

The emergence of chatgpt has generated much speculation in the press about its potential to disrupt social and economic systems. Its astonishing language ability has aroused strong curiosity among scholars about its performance in different domains. There have been many studies evaluat

chatgpt gpt-4 language ability evaluation methods large language models

发现论文，激发创造

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT 真实能力调查

我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平，回顾了 ChatGPT 的社会影响和安全问题，并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性，以免研究人员被其表面生成所误导。

Apr, 2024

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

ChatGPT 在情感计算任务上的广泛评估

基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能，发现它们在涉及情感、情绪和毒性等问题上表现出色，但在涉及隐性信号的问题上表现较差，如参与度测量和主观性检测。

Aug, 2023

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

ChatGPT 在美国工程基础考试中的表现：对熟练程度的全面评估和对环境工程实践的潜在影响

本文介绍了使用基于 GPT-4 的 ChatGPT 模型进行工程基础考试的可行性和有效性，并通过非侵入式提示修改实现了模型的显著精度提升。该研究进一步探讨了复杂工程问题的解决方案，并强调了 AI 在教育领域中的挑战，如如何实现 AI 对不同种族和背景学生的包容性和无歧视性。

Apr, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023