在 ChatGPT 中我们信任吗？测量和表征 ChatGPT 的可靠性

Apr, 2023

在 ChatGPT 中我们信任吗？测量和表征 ChatGPT 的可靠性

In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT

Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang

TL;DR本篇论文对 ChatGPT 进行了可靠性的大规模实验，在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大，尤其在法律和科学方面表现不佳，还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性，这是加强大型语言模型可靠性和安全性的必要性。

Abstract

The way users acquire information is undergoing a paradigm shift with the advent of chatgpt. Unlike conventional search engines, chatgpt retrieves knowledge from the model itself and generates answers for users.

chatgpt question-answering reliability domains adversarial examples

发现论文，激发创造

ChatGPT 的一致性分析

我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高，但它仍经常无法生成逻辑上正确的预测；因此，我们得出结论：在没有充分人工检查的情况下，在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。

Mar, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

对 ChatGPT 文本注释和分类可靠性的测试：一则警示

该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现，包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值，并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证，例如与人类注释数据的比较，并不推荐使用 ChatGPT 进行无监督文本标注和分类。

Apr, 2023

ChatGPT 真实能力调查

我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平，回顾了 ChatGPT 的社会影响和安全问题，并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性，以免研究人员被其表面生成所误导。

Apr, 2024

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 在需求信息检索中的初步评估

本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估，探讨生成式大语言模型在自然语言处理领域对需求工程的影响，结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。

Apr, 2023