聊天机器人对话回应的评分
在这项研究中,我们探讨了 ChatGPT 在学术背景下的伦理影响、其局限性和特定用户群体可能的滥用情况,并提出了旨在防止不当使用和促进负责任的 AI 交互的架构解决方案。
Oct, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
对基于大型语言模型的三个聊天机器人(ChatGPT-3.5、ChatGPT-4 和 Google Bard)进行了比较,重点关注它们解决数学和逻辑问题的能力,并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题,聊天机器人可能会提供准确的解决方案,但对于更复杂的数学问题或高级逻辑任务,它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5,而 Bard 在 Set B 中表现最好。
May, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本研究使用问答形式探究网络安全问题,利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解,试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务,其能力包括自我复制、自我修改、逃避检测,以及对复杂网络安全目标的战略理解,而令人惊讶的是,在没有图像输入的情况下,ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。
Dec, 2022
本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答,并使用 BERT 相似度得分进行比较,以获取自然语言推理(NLI)标签。该研究还确定了 ChatGPT 提供错误答案的情况,提供了有关该模型可能存在错误的领域的见解。通过评估分数,比较 GPT-3 和 GPT-4 的整体性能。
Apr, 2023
在本文中,研究人员探索了 ChatGPT 的新颖知识,在融合现有的自然语言处理技术时,如早期或晚期融合,增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。
Jul, 2023
本文通过收集并比对来自不同领域的问题,得出了 Human ChatGPT Comparison Corpus (HC3) 数据集,并评估了与人类专家相比 ChatGPT 的回答特点和差异,还提出了未来 LLMs 的研究方向,最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。
Jan, 2023