ChatGPT 在准确回答问题方面的不足原因是什么?
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力,我们提出了一个框架来评估其功能和可靠性,并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。 我们发现 LLM 模型的一些常见问题。
Mar, 2023
研究对 ChatGPT 的失误进行系统分析,提出了 11 类失误,并讨论了聊天机器人的风险、局限性和社会影响,目的是帮助研究人员和开发者提升未来的语言模型和聊天机器人。
Feb, 2023
我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高,但它仍经常无法生成逻辑上正确的预测;因此,我们得出结论:在没有充分人工检查的情况下,在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。
Mar, 2023
本篇论文对 ChatGPT 进行了可靠性的大规模实验,在 8 个领域的 5,695 个问题数据集中发现 ChatGPT 的性能变化较大,尤其在法律和科学方面表现不佳,还指出了 ChatGPT 的系统角色和对抗性样例都会影响它的可靠性,这是加强大型语言模型可靠性和安全性的必要性。
Apr, 2023
研究 LLMs 和 GPTs 在处理常识问题中的表现,实验结果表明:(1) GPTs 在通识任务中可以取得较好的 QA 准确率,但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识,可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者,不能准确地识别回答一个特定问题所需的常识知识,这需要更好的常识引导机制,如遵循指示、更好的常识引导等。
Mar, 2023
ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答,并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外,我们还开发了一个基本的自然语言处理模型,用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。
Feb, 2024
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本研究使用 7 个信息提取任务评估了 ChatGPT 在理解用户意图和提供合理回答方面的总体能力,发现其在标准信息提取设置中的表现差,但在 OpenIE 设置中表现出色,并提供高质量和可信任的解释,但存在预测自信度过高导致校准性低的问题。
Apr, 2023
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023