在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023
该研究发现预训练的大型语言模型可以成为良好的零样本推理器,提出了一种零样本的 CoT 方法,将其用于多种复杂的推理任务并取得了显著的性能提升。
May, 2022
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023
本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估,旨在更好地理解这种模型学习常识知识的程度,结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。
Oct, 2021
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
本研究提出了一种混合训练的方法,旨在解决针对不同领域的 8 个共指消解数据集在模型的零 - shot 迁移表现上存在的问题,并构建了一个新的数据集,取得了多个最先进的结果。
Sep, 2021
该论文提出了元调谐(meta-tuning)方法,旨在直接针对零样本学习目标对预训练语言模型进行微调,应用于分类任务,并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明,相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型,元调整模型在新的任务上表现更好,同时我们认为,增加参数数量会进一步提升 AUC-ROC 分数。
Apr, 2021
通过问题引导的工程方法,我们测试了更大的模型对 coreference resolution 任务的可行性,研究表明,GPT-2 和 GPT-Neo 可以返回有效的答案,但其识别 coreferent mentions 的能力受到提示敏感性的限制,导致结果不一致。
本研究聚焦于使用大型语言模型作为无样本关系抽取器。通过分析现有关系抽取提示的不足之处,并引入诸如 CoT 的最新提示技术,我们提出了一种名为 SumAsk 的简单提示方法,通过使用大型语言模型将关系抽取输入转化为有效的问答格式。同时,我们在各种基准测试和设置上进行了广泛的实验,研究了大型语言模型在无样本关系抽取方面的能力,发现 SumAsk 方法在不同模型尺寸、基准测试和设置上都能显著提高大型语言模型的性能,在与无样本和完全监督方法相比具有一定竞争力甚至优越性能的同时,大型语言模型在提取重叠关系方面表现出了良好的性能,然而,不同的关系之间性能差异较大,大型语言模型相较于小型语言模型在处理挑战性的无适用项关系时表现出了有效性。
Oct, 2023
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020