评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

Mar, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu...

TL;DR评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Abstract

chatgpt is a powerful large language model (LLM) that has made remarkable progress in natural language understanding. Nevertheless, the performance and limitations of the model still need to be extensively evaluated. As

chatgpt question answering system knowledge based question answering models semantic parsing reliability

发现论文，激发创造

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

科学问题：与 ChatGPT 聊天探讨复杂系统

本研究概述了聊天机器人 ChatGPT 在复杂系统领域中的应用，它可以通过学习互联网文本的语言模式和风格来反映社区中常见的观点、想法和语言模式，涵盖了教学和学习以及研究课题。我们确认 ChatGPT 可以成为社区思想的重要来源。

Mar, 2023

ChatGPT 与传统问答系统在知识图谱中的比较：现状与未来发展方向

本文研究如何将 Conversational AI 和 Question-Answering systems 应用于 knowledge graphs 中，以提供自然语言的交互接口。同时，对两种技术进行对比和评估，并提出将 QASs 升级为 KG chatbots 的研究机会。

Feb, 2023

HCI 挑战的映射：ChatGPT 和 GPT-4 的应用和评估用于成本效益问答

本文通过对 CHI 会议记录进行提取，评估了 ChatGPT 和 GPT-4 对成本低廉的抽取式问题回答的实际任务的表现，发现 ChatGPT 和 GPT-4 的组合是分析文本语料库的有效低成本手段，对于 HCI 领域的研究人员，我们提供了 90 多个研究主题中 4392 个研究挑战的交互式可视化。

Jun, 2023

ChatGPT 的一致性分析

我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高，但它仍经常无法生成逻辑上正确的预测；因此，我们得出结论：在没有充分人工检查的情况下，在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。

Mar, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023