聊天机器人对话回应的评分

Feb, 2023

Grading Conversational Responses Of Chatbots

Grant Rosario, David Noever

TL;DR在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Abstract

chatbots have long been capable of answering basic questions and even responding to obscure prompts, but recently their improvements have been far more significant. Modern chatbots like Open AIs →

chatbots openai chatgpt3 machine translation humanistic reply

发现论文，激发创造

人工智能对话聊天机器人的关键作用

在这项研究中，我们探讨了 ChatGPT 在学术背景下的伦理影响、其局限性和特定用户群体可能的滥用情况，并提出了旨在防止不当使用和促进负责任的 AI 交互的架构解决方案。

Oct, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

增加高级聊天机器人的防护栏

ChatGPT 是公正的搜索引擎，但在文本生成和代码生成方面存在偏见；小的改变可能导致不同水平的公正性，需要立即实施 “修正” 或缓解策略以提高公平性。

Jun, 2023

ChatGPT：全才，非专才

本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务（如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答）中的表现及其个性化响应能力，并与现有的国际先进水平（SOTA）解决方案进行了比较。结果表明，任务难度越高（低 SOTA 表现），ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见，在一定程度上限制了 ChatGPT 的有效性。

Feb, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

机器人网络世界中的聊天机器人

本研究使用问答形式探究网络安全问题，利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解，试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务，其能力包括自我复制、自我修改、逃避检测，以及对复杂网络安全目标的战略理解，而令人惊讶的是，在没有图像输入的情况下，ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。

Dec, 2022

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT 的回复能提升传统自然语言处理吗？

在本文中，研究人员探索了 ChatGPT 的新颖知识，在融合现有的自然语言处理技术时，如早期或晚期融合，增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。

Jul, 2023

ChatGPT 与人类专家的接近程度有多高？对比语料库、评估和检测

本文通过收集并比对来自不同领域的问题，得出了 Human ChatGPT Comparison Corpus (HC3) 数据集，并评估了与人类专家相比 ChatGPT 的回答特点和差异，还提出了未来 LLMs 的研究方向，最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。

Jan, 2023