ChatGPT 的评价可信吗？

Mar, 2023

Can we trust the evaluation on ChatGPT?

Rachith Aiyappa, Jisun An, Haewoon Kwak, Yong-Yeol Ahn

TL;DR本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Abstract

chatgpt, the first large language model (LLM) with mass adoption, has demonstrated remarkable performance in numerous natural language tasks. Despite its evident usefulness, evaluating →

chatgpt large language model evaluation data contamination fair model evaluation

发现论文，激发创造

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

ChatGPT 真实能力调查

我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平，回顾了 ChatGPT 的社会影响和安全问题，并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性，以免研究人员被其表面生成所误导。

Apr, 2024

TrustGPT：大型语言模型的信任度和责任性基准

本研究旨在通过引入 TrustGPT，评价 LLMs 在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Jun, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法，实验证明 ChatGPT 能够有效地从不同角度评估文本质量，尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是，直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。

Apr, 2023