微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

Jun, 2024

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

Fine-Tuned 'Small' LLMs (Still) Significantly Outperform Zero-Shot Generative AI Models in Text Classification

Martin Juan José Bucher, Marco Martini

TL;DR通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Abstract

generative ai offers a simple, prompt-based alternative to fine-tuning smaller BERT-style LLMs for text classification tasks. This promises to eliminate the need for manually labeled training data and task-specif

generative ai fine-tuned llms text classification gpt models application-specific training data

发现论文，激发创造

大型语言模型的零样本文本分类器

利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。

Dec, 2023

Zero is Not Hero Yet: LLMs 金融任务零样本性能基准测试

本研究探究零样本学习在金融领域中的应用，使用 ChatGPT 等大型语言模型与 RoBERTa 在有标签数据和无标签数据的情况下进行比较，并针对数据标注、模型表现差距和生成模型在金融领域中的使用可行性等三个问题进行了研究。结果表明，即使在没有标签数据的情况下，ChatGPT 的表现仍然很好，但是精细调参的模型通常表现更佳。同时，我们的研究还强调了用生成模型进行注释可能需要大量时间。

May, 2023

评估用于图到文本生成的生成模型

本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力，并与微调后的语言模型进行了比较，在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本，AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而，我们的错误分析发现生成模型仍然难以理解实体之间的语义关系，并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分，我们使用 BERT 检测机器生成的文本，并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。

Jul, 2023

使用预训练大型语言模型的零样本垃圾邮件分类

该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨了两种分类方法：（1）仅使用邮件主题和正文的截断原始内容，（2）基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明，Flan-T5 在截断内容方法上的 F1 得分为 90％，而 GPT-4 使用摘要则达到 95％的 F1 得分。尽管这些初步发现表明 LLMs 子任务（例如摘要和分类）的分类管道具有潜力，但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本，以及 LLMs 的一般推断成本，可能会显著阻碍垃圾邮件过滤的实际部署。

May, 2024

大型语言模型用于方面级情感分析

使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能，结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数，比 InstructABSA 提高了 5.7%，但模型参数增加了 1000 倍，推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时，我们的研究结果表明，在零痕迹和少痕迹环境中，详细提示可以提高性能，但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。

Oct, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

金融情绪分析中精调 LLMs 和少样本学习 LLMs 的比较分析

金融情绪分析在揭示潜在模式和检测新兴趋势方面发挥着重要作用，最近，大型语言模型在不同领域展示了显著的能力，对于各种自然语言处理任务，甚至在零样本和少样本的情境学习中都表现出卓越的能力。然而，在金融情绪分析的背景下，它们的潜力和适用性尚未得到全面探索。为了弥补这一空白，我们采用了两种方法：上下文学习（重点关注 gpt-3.5-turbo 模型）和对金融领域数据集进行微调的 LLM。我们的结果表明，经过微调的较小 LLM 即便参数较少、训练数据集较小，也能够实现与最先进经过微调的 LLM 可比较的性能。此外，LLM 的零样本和一样本性能与经过微调的较小 LLM 和最先进的结果相当。此外，我们的分析表明，增加上下文学习的样本数量，并没有提高金融领域情绪分析的性能。

Dec, 2023

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023