评估 ChatGPT 在回答复杂问题时作为问答系统的有效性
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本研究概述了聊天机器人 ChatGPT 在复杂系统领域中的应用,它可以通过学习互联网文本的语言模式和风格来反映社区中常见的观点、想法和语言模式,涵盖了教学和学习以及研究课题。我们确认 ChatGPT 可以成为社区思想的重要来源。
Mar, 2023
本文研究如何将 Conversational AI 和 Question-Answering systems 应用于 knowledge graphs 中,以提供自然语言的交互接口。同时,对两种技术进行对比和评估,并提出将 QASs 升级为 KG chatbots 的研究机会。
Feb, 2023
本文通过对 CHI 会议记录进行提取,评估了 ChatGPT 和 GPT-4 对成本低廉的抽取式问题回答的实际任务的表现,发现 ChatGPT 和 GPT-4 的组合是分析文本语料库的有效低成本手段,对于 HCI 领域的研究人员,我们提供了 90 多个研究主题中 4392 个研究挑战的交互式可视化。
Jun, 2023
我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高,但它仍经常无法生成逻辑上正确的预测;因此,我们得出结论:在没有充分人工检查的情况下,在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。
Mar, 2023
对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究,包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。
Aug, 2023
本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。
Feb, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023