GPTEval: ChatGPT 和 GPT-4 评估调查
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平,回顾了 ChatGPT 的社会影响和安全问题,并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性,以免研究人员被其表面生成所误导。
Apr, 2024
研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。
Mar, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
本文对 ChatGPT 和 GPT-4 进行了综合调查,分析了其在各领域的潜在应用,发现 ChatGPT/GPT-4 主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
本文介绍了使用基于 GPT-4 的 ChatGPT 模型进行工程基础考试的可行性和有效性,并通过非侵入式提示修改实现了模型的显著精度提升。该研究进一步探讨了复杂工程问题的解决方案,并强调了 AI 在教育领域中的挑战,如如何实现 AI 对不同种族和背景学生的包容性和无歧视性。
Apr, 2023
本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估,同时我们评估了其他 AI 生成的文本检测工具,以检测 ChatGPT 生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明,现有方法都不能有效地检测 ChatGPT 生成的内容。
Apr, 2023
评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力,我们提出了一个框架来评估其功能和可靠性,并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。 我们发现 LLM 模型的一些常见问题。
Mar, 2023
本文探讨了 ChatGPT 在不同任务中的表现评估问题,特别是针对数据污染问题,以 stance detection 为例,同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。
Mar, 2023