能否理解情境？ChatGPT 的实验测试

EMNLPOct, 2023

能否理解情境？ChatGPT 的实验测试

Can You Follow Me? Testing Situational Understanding in ChatGPT

Chenghao Yang, Allyson Ettinger

TL;DRChatGPT 在跟踪情境状态方面存在性能下降，主要是由于其非持久性的上下文记忆以及易受虚构更新的影响。

Abstract

Understanding sentence meanings and updating information states appropriately across time -- what we call "situational understanding" (SU) -- is a critical ability for human-like AI agents. SU is essential in particular for chat models, such as ChatGPT, to enable consistent, coherent,

situational understanding chat models large language models tracking environment states in-context memory

发现论文，激发创造

ChatGPT 的零 - shot 对话理解初步评估

本文研究了 ChatGPT 在零 - shot 语音理解和对话状态跟踪任务中的理解能力，并发现 ChatGPT 在对话状态跟踪任务中从多轮交互提示中获益，但在语音理解任务的信息填槽中存在困难。此外，我们总结了 ChatGPT 在对话理解任务中的一些意外行为，希望为未来建立基于大语言模型的零 - shot 对话理解系统提供一些见解。

Apr, 2023

ChatGPT 和 Fine-tuned BERT 的比较研究

本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力，并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现，ChatGPT 在处理释义和相似性任务方面存在不足，但在推理任务方面优于所有 BERT 模型，并在情感分析和问答任务上表现与 BERT 相当。此外，通过组合一些高级提示策略，我们展示了 ChatGPT 的理解能力可以进一步提高。

Feb, 2023

人工智能与教育：ChatGPT 在系统思维中的应用调查

使用 ChatGPT 人工智能工具探索系统思维在不同学科中的潜力，研究评估了不同版本 ChatGPT 在各学科中的回应的准确性、有用性和可靠性，结果显示 ChatGPT 在各学科中能提供基本正确和非常有帮助的回应，展示了其增强系统思维能力的潜力。然而，偶尔的不准确回答突显了用户需要对 ChatGPT 的回应持批判态度。尽管有一些限制，研究表明只要使用得当并注意其特点，ChatGPT 可以成为教学和学习系统思维的宝贵工具。

Jul, 2023

ChatGPT 是否能够检测意图？评估大型语言模型在口语理解方面的表现

该研究评估了不同尺寸的预训练语言模型（如 ChatGPT 和 OPT）在多个基准测试上对于口语语言理解（SLU）的影响。结果表明，最大的模型可在各种语言的语料库中使用零或少量注释即可接近于监督模型的意图分类准确性，但在槽填充方面表现不佳，并且对 ASR 错误敏感。

May, 2023

32 个大学课程中对话式人工智能的感知、表现和可检测性

该研究比较了 ChatGPT 和 32 门大学课程学生的表现，发现 ChatGPT 在许多课程中的表现相当，甚至优于许多学生。此外，其使用也难以被 AI 文本分类器可靠地检测出来，并且出现了学生使用该工具和教育者将其视为抄袭的共识，这些发现为 AI 融入教育框架的政策讨论提供了指导。

May, 2023

ChatGPT 是一个具有知识但缺乏经验的求解器：大型语言模型中常识问题的研究

研究 LLMs 和 GPTs 在处理常识问题中的表现，实验结果表明：(1) GPTs 在通识任务中可以取得较好的 QA 准确率，但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识，可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者，不能准确地识别回答一个特定问题所需的常识知识，这需要更好的常识引导机制，如遵循指示、更好的常识引导等。

Mar, 2023

ChatGPT：全才，非专才

本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务（如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答）中的表现及其个性化响应能力，并与现有的国际先进水平（SOTA）解决方案进行了比较。结果表明，任务难度越高（低 SOTA 表现），ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见，在一定程度上限制了 ChatGPT 的有效性。

Feb, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

大型语言模型是否能够很好地玩文本游戏？现状和开放问题

本技术报告针对大型语言模型 (ChatGPT 和 GPT-4)，探究它们在玩文字游戏方面的能力，实验证明 ChatGPT 表现与现有系统相比具有竞争力，但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。

Apr, 2023

零 - shot 对话状态跟踪的 ChatGPT：解决方案还是机会？

我们使用 ChatGPT ，一个通用语言模型，展示了它在零 - shot DST 上达到的最先进的表现，并证明了通用模型在专业系统替代方面的能力受到其属性的限制，但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。

Jun, 2023