ChatGPT 与 Google:搜索性能和用户体验的比较研究
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
本文通过收集并比对来自不同领域的问题,得出了 Human ChatGPT Comparison Corpus (HC3) 数据集,并评估了与人类专家相比 ChatGPT 的回答特点和差异,还提出了未来 LLMs 的研究方向,最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。
Jan, 2023
我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平,回顾了 ChatGPT 的社会影响和安全问题,并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性,以免研究人员被其表面生成所误导。
Apr, 2024
本研究对比 ChatGPT 与现有技术模型的关键词生成能力,探究其在应对领域适应性和长文本关键词生成方面的潜力。实验结果表明 ChatGPT 在不同数据集和环境中均优于现有技术模型,能生成高质量、适应多样领域和文本长度的关键词。
Apr, 2023
本篇论文对 ChatGPT 进行了可靠性的大规模实验,在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大,尤其在法律和科学方面表现不佳,还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性,这是加强大型语言模型可靠性和安全性的必要性。
Apr, 2023
本研究采用了学生至上的方法,通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT,这是由 OpenAI 发布的一种流行的大型语言模型。研究发现,大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极,但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战,这些发现具有更广泛的意义,并可适用于其他大型语言模型及其在计算机教育中的作用。
Nov, 2023
本文探究了如何用 ChatGPT 辅助机器翻译,提出了多种翻译提示。实验结果表明,ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好,在低资源翻译方面略逊于专业翻译系统,并在多参考文献翻译和特定领域翻译方面表现出优异的性能。 此外,我们进行了几个快速提示,表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。
Apr, 2023