ChatGPT 在准确回答问题方面的不足原因是什么？

Apr, 2023

ChatGPT 在准确回答问题方面的不足原因是什么？

Why Does ChatGPT Fall Short in Answering Questions Faithfully?

Shen Zheng, Jie Huang, Kevin Chen-Chuan Chang

TL;DR该研究基于 ChatGPT 在答题方面的失败，对其失败的四种类型进行了归类，并进一步探讨了三种知识能力与答题失败的关系：知识记忆、知识关联和知识推理，通过实验验证，结论表明在提高模型答题的忠诚度方面，向模型提供精细的外部知识、知识关联和推理引导都有助于增强其能力。

Abstract

Recent advancements in large language models, such as chatgpt, have demonstrated significant potential to impact various aspects of human life. However, →

large language models chatgpt question answering faithfulness knowledge reasoning

发现论文，激发创造

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

ChatGPT 失败的分类存档

研究对 ChatGPT 的失误进行系统分析，提出了 11 类失误，并讨论了聊天机器人的风险、局限性和社会影响，目的是帮助研究人员和开发者提升未来的语言模型和聊天机器人。

Feb, 2023

ChatGPT 的一致性分析

我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高，但它仍经常无法生成逻辑上正确的预测；因此，我们得出结论：在没有充分人工检查的情况下，在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。

Mar, 2023

在 ChatGPT 中我们信任吗？测量和表征 ChatGPT 的可靠性

本篇论文对 ChatGPT 进行了可靠性的大规模实验，在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大，尤其在法律和科学方面表现不佳，还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性，这是加强大型语言模型可靠性和安全性的必要性。

Apr, 2023

ChatGPT 是一个具有知识但缺乏经验的求解器：大型语言模型中常识问题的研究

研究 LLMs 和 GPTs 在处理常识问题中的表现，实验结果表明：(1) GPTs 在通识任务中可以取得较好的 QA 准确率，但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识，可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者，不能准确地识别回答一个特定问题所需的常识知识，这需要更好的常识引导机制，如遵循指示、更好的常识引导等。

Mar, 2023

基于 ChatGPT 作弊的测试题漏洞研究

ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答，并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外，我们还开发了一个基本的自然语言处理模型，用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。

Feb, 2024

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

评估 ChatGPT 的信息提取能力：性能、可解释性、校准度和忠实度评估

本研究使用 7 个信息提取任务评估了 ChatGPT 在理解用户意图和提供合理回答方面的总体能力，发现其在标准信息提取设置中的表现差，但在 OpenIE 设置中表现出色，并提供高质量和可信任的解释，但存在预测自信度过高导致校准性低的问题。

Apr, 2023

ChatGPT 和 Fine-tuned BERT 的比较研究

本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力，并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现，ChatGPT 在处理释义和相似性任务方面存在不足，但在推理任务方面优于所有 BERT 模型，并在情感分析和问答任务上表现与 BERT 相当。此外，通过组合一些高级提示策略，我们展示了 ChatGPT 的理解能力可以进一步提高。

Feb, 2023