PokemonChat: 对 ChatGPT 在宠物小精灵宇宙知识方面进行审计

Jun, 2023

PokemonChat: 对 ChatGPT 在宠物小精灵宇宙知识方面进行审计

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

Laura Cabello, Jiaang Li, Ilias Chalkidis

TL;DR本研究利用 "Pokemon" 这个封闭世界来探讨 ChatGPT 在对话中的理解、推理能力和知识获取能力，并测试了其识别新知识和结合多个特征等能力，并发现了模型的先验知识、出现幻觉和易受对抗性攻击等特点。

Abstract

The recently released chatgpt model demonstrates unprecedented capabilities in zero-shot question-answering. In this work, we probe chatgpt for its →

chatgpt conversational understanding reasoning capabilities knowledge acquisition pokémon universe

发现论文，激发创造

ChatGPT 是一个具有知识但缺乏经验的求解器：大型语言模型中常识问题的研究

研究 LLMs 和 GPTs 在处理常识问题中的表现，实验结果表明：(1) GPTs 在通识任务中可以取得较好的 QA 准确率，但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识，可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者，不能准确地识别回答一个特定问题所需的常识知识，这需要更好的常识引导机制，如遵循指示、更好的常识引导等。

Mar, 2023

ChatGPT 在声明验证背景下的推理能力评估

我们提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4（以下简称 ChatGPT）的推理能力进行评估，结果显示 ChatGPT 在因果推理方面存在困难，但通过使用手动 Chain of Thought（CoT）而不是 Zero Shot（ZS）和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致，并且指出 LLMs 需要在高风险的实际任务（如宣称验证）中进行更严格的评估，以区分炒作和实际能力。

Feb, 2024

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

ChatGPT 是否是通用自然语言处理任务解决方案？

本文通过对 20 个流行的任务数据集进行评估，就 ChatGPT 的零 - shot 学习能力进行了实证分析，并发现它在推理能力较强的任务上表现良好，如算术推理，但在特定任务（如序列标记）的解决方面仍面临挑战。

Feb, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

ChatGPT 的一致性分析

我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高，但它仍经常无法生成逻辑上正确的预测；因此，我们得出结论：在没有充分人工检查的情况下，在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。

Mar, 2023

ChatGPT-4 中明显概念物理推理的进展

使用巨大的语言模型建立了 ChatGPT，经 Kortemeyer 验证其在牛顿力学基础知识方面具有基本理解并达到专家水平，该结果对未来的物理教育和教学具有重要的启示。

Mar, 2023

ChatGPT 作为数学问题提问者？对 ChatGPT 在生成大学预备数学问题方面的评估

ChatGPT 分析了其在生成高中数学问题方面的潜力，通过对各类课程的数学问题进行评估和分析，发现大语言模型在数学问题生成方面具有潜力。

Dec, 2023

AI 和 FCI：ChatGPT 能否预测初级物理的理解？

这篇文章研究了 ChatGPT3.5 和 ChatGPT4 在大学物理中表现的能力，表明 ChatGPT3.5 可以达到甚至超过完成一学期大学物理的学生的中位数表现，而 ChatGPT4 的表现则已接近专业物理学家的水平。

Mar, 2023