ChatGPT 的一致性分析

Mar, 2023

Consistency Analysis of ChatGPT

Myeongjun Jang, Thomas Lukasiewicz

TL;DR我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高，但它仍经常无法生成逻辑上正确的预测；因此，我们得出结论：在没有充分人工检查的情况下，在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。

Abstract

chatgpt, a question-and-answer dialogue system based on a large language model, has gained huge popularity since its introduction. Its positive aspects have been reported through many media platforms, and some analyses even showed that →

chatgpt trustworthiness language understanding logic real-world applications

发现论文，激发创造

探究 ChatGPT 在内容排序方面的能力：一项关于与人类偏好的一致性的初步研究

本研究评估了 ChatGPT 在内容排序方面的能力，结果表明 ChatGPT 的排序偏好与人类的一定程度上一致。这证明了它具有一定的‘zero-shot ranking’能力，有潜力在许多排序任务中减轻注释压力。

Mar, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

在 ChatGPT 中我们信任吗？测量和表征 ChatGPT 的可靠性

本篇论文对 ChatGPT 进行了可靠性的大规模实验，在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大，尤其在法律和科学方面表现不佳，还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性，这是加强大型语言模型可靠性和安全性的必要性。

Apr, 2023

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

ChatGPT 是专家们的杰出工具

本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力，重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险，而作者提出了使用流程建议，对输出进行独立验证，并建议专家使用该工具。

Jun, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

聊天 GPT 在对话中的话语分析潜力：实证研究

本研究探讨了 ChatGPT 在话语语篇分析中的能力，特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链（COT）方法，发现 ChatGPT 对于话题分割有较好的表现，但在话语关系识别和话语分析等较难的任务中有待提高。

May, 2023