严格零样本分层分类的简单有效框架
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023
提出了一种基于超级对比学习预处理的新框架 ConEntail,它使用统一的元任务进行分类,该任务基于嵌套蕴含。实验结果表明,该框架可以有效地利用现有的注释数据,在零和少量样本情况下始终优于基线 (分别达到 9.4% 和 3.5% 的平均改进)。
Oct, 2022
使用 5 种最先进的大型语言模型(LLMs)作为 “标注者” 在多个任务上进行评估,并比较其与人类标注的优缺点。总体而言,尽管 LLMs 在某些任务上表现出色,但它们无法替代人类标注的需求。
Jul, 2023
大型语言模型(LLMs)在各种零样本和小样本任务中表现出色,但它们的零样本和小样本设置的成功可能会受到任务污染的影响。本文研究了 LLMs 的零样本和小样本性能如何随时间的推移而变化。利用 GPT-3 系列模型和其他一些最近的开源 LLMs,并控制数据集的难度,我们发现在 LLMs 的训练数据创建日期之前发布的数据集上,LLMs 表现出令人惊讶的优势。这明显表明,对于许多 LLMs 来说,在 LLMs 的训练数据创建日期之前发布的数据集上存在零样本和小样本评估的任务污染。此外,我们利用训练数据检查、任务示例提取和成员推理攻击,揭示了更多关于任务污染的证据。重要的是,我们发现对于没有可能任务污染的分类任务,在零样本和小样本设置下,LLMs 很少显示出与简单多数基准显著差异的改进。
Dec, 2023
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉 - 语言预训练模型(例如 CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023
该论文介绍了一种利用大型语言模型(LLM)进行文本监督语义分割的新方法,该方法通过生成更准确的类别表示来提供多样化的分割结果,并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验,我们的方法比传统的文本监督语义分割方法表现出更好的性能。
Mar, 2024
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024
本研究探讨了大型语言模型(LLM)在通过语义嵌入生成和提供领域特定信息方面的潜力,并在基于视觉的零样本目标状态分类任务中将 LLM 整合到一种流程中。研究结果表明,使用 LLM 嵌入与通用预训练嵌入相结合,可以显著提高性能,并通过与竞争模型的比较分析展示了所提出方法所达到的最新性能。
Mar, 2024
通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究,我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能,发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当(平均宏 F1 得分为 0.83 vs. 0.75)。研究还表明,如果难以使用大规模标注数据集,LLMs 可以减轻数据标注的负担,但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果,LLMs 可以加快临床自然语言处理研究的执行速度,提高 NLP 变量和结果在临床观察研究中的利用率。
Jan, 2024