ChatGPT 失败的分类存档
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
该研究基于 ChatGPT 在答题方面的失败,对其失败的四种类型进行了归类,并进一步探讨了三种知识能力与答题失败的关系:知识记忆、知识关联和知识推理,通过实验验证,结论表明在提高模型答题的忠诚度方面,向模型提供精细的外部知识、知识关联和推理引导都有助于增强其能力。
Apr, 2023
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
本文对 ChatGPT 的编码能力进行全面评估,重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023