ChatGPT 零 - shot 文本到 SQL 能力的综合评估
本文提出了一个基于 ChatGPT 的零 - shot 文本到 SQL 的方法 ——C3,该方法在 Spider 数据集上的测试集上取得了 82.3% 的执行准确度,并成为了 Spider Challenge 的最优零 - shot 文本到 SQL 方法。C3 包括三个关键组件:Clear Prompting、Calibration with Hints 和 Consistent Output,分别对应于模型输入、模型偏差和模型输出。它为零 - shot 文本到 SQL 提供了系统性的处理方法。作者进行了广泛的实验验证了这种方法的有效性和效率。
Jul, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本文研究了 ChatGPT 在零 - shot 语音理解和对话状态跟踪任务中的理解能力,并发现 ChatGPT 在对话状态跟踪任务中从多轮交互提示中获益,但在语音理解任务的信息填槽中存在困难。此外,我们总结了 ChatGPT 在对话理解任务中的一些意外行为,希望为未来建立基于大语言模型的零 - shot 对话理解系统提供一些见解。
Apr, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本文评估了 ChatGPT 模型在性能、评估标准、稳健性和错误类型四个方面的能力,并提出了一种用于更准确反映 ChatGPT 性能的软匹配策略,同时发现了 ChatGPT 的最主要的错误类型是 “未注释的跨度”,从而引发了对标注数据质量的关注,并提示可以使用 ChatGPT 进行数据标注。
May, 2023
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估,探讨生成式大语言模型在自然语言处理领域对需求工程的影响,结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。
Apr, 2023
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
该研究评估了不同尺寸的预训练语言模型(如 ChatGPT 和 OPT)在多个基准测试上对于口语语言理解(SLU)的影响。结果表明,最大的模型可在各种语言的语料库中使用零或少量注释即可接近于监督模型的意图分类准确性,但在槽填充方面表现不佳,并且对 ASR 错误敏感。
May, 2023