能否理解情境?ChatGPT 的实验测试
本文研究了 ChatGPT 在零 - shot 语音理解和对话状态跟踪任务中的理解能力,并发现 ChatGPT 在对话状态跟踪任务中从多轮交互提示中获益,但在语音理解任务的信息填槽中存在困难。此外,我们总结了 ChatGPT 在对话理解任务中的一些意外行为,希望为未来建立基于大语言模型的零 - shot 对话理解系统提供一些见解。
Apr, 2023
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
使用 ChatGPT 人工智能工具探索系统思维在不同学科中的潜力,研究评估了不同版本 ChatGPT 在各学科中的回应的准确性、有用性和可靠性,结果显示 ChatGPT 在各学科中能提供基本正确和非常有帮助的回应,展示了其增强系统思维能力的潜力。然而,偶尔的不准确回答突显了用户需要对 ChatGPT 的回应持批判态度。尽管有一些限制,研究表明只要使用得当并注意其特点,ChatGPT 可以成为教学和学习系统思维的宝贵工具。
Jul, 2023
该研究评估了不同尺寸的预训练语言模型(如 ChatGPT 和 OPT)在多个基准测试上对于口语语言理解(SLU)的影响。结果表明,最大的模型可在各种语言的语料库中使用零或少量注释即可接近于监督模型的意图分类准确性,但在槽填充方面表现不佳,并且对 ASR 错误敏感。
May, 2023
该研究比较了 ChatGPT 和 32 门大学课程学生的表现,发现 ChatGPT 在许多课程中的表现相当,甚至优于许多学生。此外,其使用也难以被 AI 文本分类器可靠地检测出来,并且出现了学生使用该工具和教育者将其视为抄袭的共识,这些发现为 AI 融入教育框架的政策讨论提供了指导。
May, 2023
研究 LLMs 和 GPTs 在处理常识问题中的表现,实验结果表明:(1) GPTs 在通识任务中可以取得较好的 QA 准确率,但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识,可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者,不能准确地识别回答一个特定问题所需的常识知识,这需要更好的常识引导机制,如遵循指示、更好的常识引导等。
Mar, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本技术报告针对大型语言模型 (ChatGPT 和 GPT-4),探究它们在玩文字游戏方面的能力,实验证明 ChatGPT 表现与现有系统相比具有竞争力,但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。
Apr, 2023
我们使用 ChatGPT ,一个通用语言模型,展示了它在零 - shot DST 上达到的最先进的表现,并证明了通用模型在专业系统替代方面的能力受到其属性的限制,但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。
Jun, 2023