微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023
本研究探究零样本学习在金融领域中的应用,使用 ChatGPT 等大型语言模型与 RoBERTa 在有标签数据和无标签数据的情况下进行比较,并针对数据标注、模型表现差距和生成模型在金融领域中的使用可行性等三个问题进行了研究。结果表明,即使在没有标签数据的情况下,ChatGPT 的表现仍然很好,但是精细调参的模型通常表现更佳。同时,我们的研究还强调了用生成模型进行注释可能需要大量时间。
May, 2023
本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力,并与微调后的语言模型进行了比较,在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本,AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而,我们的错误分析发现生成模型仍然难以理解实体之间的语义关系,并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分,我们使用 BERT 检测机器生成的文本,并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。
Jul, 2023
该研究探讨了使用零 - shot 提示的预训练大语言模型(LLMs)在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估,我们评估了开源模型(Flan-T5)和专有模型(ChatGPT,GPT-4)的性能。我们探讨了两种分类方法:(1)仅使用邮件主题和正文的截断原始内容,(2)基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明,Flan-T5 在截断内容方法上的 F1 得分为 90%,而 GPT-4 使用摘要则达到 95%的 F1 得分。尽管这些初步发现表明 LLMs 子任务(例如摘要和分类)的分类管道具有潜力,但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本,以及 LLMs 的一般推断成本,可能会显著阻碍垃圾邮件过滤的实际部署。
May, 2024
使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能,结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数,比 InstructABSA 提高了 5.7%,但模型参数增加了 1000 倍,推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时,我们的研究结果表明,在零痕迹和少痕迹环境中,详细提示可以提高性能,但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。
Oct, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT 和人工服务(如 MTurk)在文本标注任务中的表现。 发现开源 LLMs 在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然 ChatGPT 在大多数任务中表现最好,但开源 LLMs 在特定任务中也有较高的竞争潜力。
Jul, 2023
金融情绪分析在揭示潜在模式和检测新兴趋势方面发挥着重要作用,最近,大型语言模型在不同领域展示了显著的能力,对于各种自然语言处理任务,甚至在零样本和少样本的情境学习中都表现出卓越的能力。然而,在金融情绪分析的背景下,它们的潜力和适用性尚未得到全面探索。为了弥补这一空白,我们采用了两种方法:上下文学习(重点关注 gpt-3.5-turbo 模型)和对金融领域数据集进行微调的 LLM。我们的结果表明,经过微调的较小 LLM 即便参数较少、训练数据集较小,也能够实现与最先进经过微调的 LLM 可比较的性能。此外,LLM 的零样本和一样本性能与经过微调的较小 LLM 和最先进的结果相当。此外,我们的分析表明,增加上下文学习的样本数量,并没有提高金融领域情绪分析的性能。
Dec, 2023
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023