ChatGPT 是一个可能的零射依赖分析器
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本文研究了 ChatGPT 在零 - shot 语音理解和对话状态跟踪任务中的理解能力,并发现 ChatGPT 在对话状态跟踪任务中从多轮交互提示中获益,但在语音理解任务的信息填槽中存在困难。此外,我们总结了 ChatGPT 在对话理解任务中的一些意外行为,希望为未来建立基于大语言模型的零 - shot 对话理解系统提供一些见解。
Apr, 2023
该研究评估了不同尺寸的预训练语言模型(如 ChatGPT 和 OPT)在多个基准测试上对于口语语言理解(SLU)的影响。结果表明,最大的模型可在各种语言的语料库中使用零或少量注释即可接近于监督模型的意图分类准确性,但在槽填充方面表现不佳,并且对 ASR 错误敏感。
May, 2023
本文探讨了 ChatGPT 在零 - shot 时序关系抽取中的应用能力,并且设计了三种不同的提示技术来解决该任务。实验表明 ChatGPT 的性能与监督方法有较大差距,并且在时间推理过程中可能存在不一致性和长依赖时序推理失败的问题。
Apr, 2023
本文研究将 ChatGPT 用于零样本文本分类,重点是自动体裁识别,结合多语言 XLM-RoBERTa 进行测试,结果表明,ChatGPT 在没有看到的数据集上表现优异,在斯洛文尼亚语中的表现不逊于英语,在全语境下表现下降,表明它在较小语言上的使用仍有局限性。
Mar, 2023
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
我们使用 ChatGPT ,一个通用语言模型,展示了它在零 - shot DST 上达到的最先进的表现,并证明了通用模型在专业系统替代方面的能力受到其属性的限制,但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。
Jun, 2023
本研究使用 ChatGPT 这一语言模型探讨了如何利用其在软件工程中辅助完成常见任务,研究结果显示 ChatGPT 对许多任务均有不错的表现,但仍存在一些任务不适用。
May, 2023
本文研究了 ChatGPT 在 25 个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低 SOTA 表现),ChatGPT 的损失越大。同时也揭示了 ChatGPT 偏见,在一定程度上限制了 ChatGPT 的有效性。
Feb, 2023
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023