使用预训练大型语言模型的零样本垃圾邮件分类

May, 2024

使用预训练大型语言模型的零样本垃圾邮件分类

Zero-Shot Spam Email Classification Using Pre-trained Large Language Models

Sergio Rojas-Galeano

TL;DR该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨了两种分类方法：（1）仅使用邮件主题和正文的截断原始内容，（2）基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明，Flan-T5 在截断内容方法上的 F1 得分为 90％，而 GPT-4 使用摘要则达到 95％的 F1 得分。尽管这些初步发现表明 LLMs 子任务（例如摘要和分类）的分类管道具有潜力，但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本，以及 LLMs 的一般推断成本，可能会显著阻碍垃圾邮件过滤的实际部署。

Abstract

This paper investigates the application of pre-trained large language models (LLMs) for spam email classification using zero-shot prompting

pre-trained large language models spam email classification zero-shot prompting spamassassin dataset classification pipelines

发现论文，激发创造

大型语言模型的零样本文本分类器

利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。

Dec, 2023

Spam-T5: 基于大型语言模型的少样本电子邮件垃圾检测基准测试

本文旨在探究大型语言模型在垃圾邮件检测中的有效性，通过比较 BERT，Sentence Transformers 和 Seq2Seq 等不同家族的著名模型，并将 Naive Bayes 和 LightGBM 等传统方法作为基准方法。结果表明，在大多数情况下，大型语言模型优于基线技术，特别是在少样本学习中。此外，本文介绍了 Spam-T5 模型，该模型针对电子邮件垃圾邮件检测进行了专门的微调。结果表明，Spam-T5 在大多数情况下优于基线模型和其他大型语言模型。

Apr, 2023

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Jun, 2024

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究，我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能，发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当（平均宏 F1 得分为 0.83 vs. 0.75）。研究还表明，如果难以使用大规模标注数据集，LLMs 可以减轻数据标注的负担，但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果，LLMs 可以加快临床自然语言处理研究的执行速度，提高 NLP 变量和结果在临床观察研究中的利用率。

Jan, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

利用大型语言模型高效分类编程课程中学生求助请求

通过研究，我们发现 GPT-3.5 和 GPT-4 模型可以准确分类学生的求助请求，并提高教育系统的自动化分类能力。

Oct, 2023

关于基于 LLMs 的零封声生成

本研究通过零 - shot 设置中对四种大语言模型（GPT-2，DialoGPT，ChatGPT 和 FlanT5）的分析，提出了三种不同的提示策略，以改善对抗性言论生成，在生成质量有所提升的同时，发现模型大小的增加会增加毒性，ChatGPT 在对抗性言论生成方面表现优于其他模型。

Mar, 2024

探索基于提示学习范式的小型语言模型用于高效的领域特定文本分类

在本研究中，我们调查了小语言模型（具有不到 10 亿参数）与 prompt-learning 范例相结合，在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示，在少样本设置下进行基于提示的模型微调时，220M 参数的典型小语言模型 T5-base 可以在有限的标记数据（高达全数据的 15%）上实现约 75% 的准确性，显示了小语言模型与 prompt-learning 的巨大潜力。基于此，我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外，在固定模型的零样本设置中，我们强调了一个关键的观察结果，即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性，但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时，其准确性超过 31%，相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力，强调了主动少样本抽样和集成策略在少样本设置中的好处，并强调了零样本设置中提示工程的重要性。

Sep, 2023