哪种人工智能技术更适合用于需求分类？SVM、LSTM 和 ChatGPT 的实验比较

Nov, 2023

哪种人工智能技术更适合用于需求分类？SVM、LSTM 和 ChatGPT 的实验比较

Which AI Technique Is Better to Classify Requirements? An Experiment with SVM, LSTM, and ChatGPT

Abdelkarim El-Hajjami, Nicolas Fafin, Camille Salinesi

TL;DR通过对文本 - davinci-003、gpt-3.5-turbo 和 gpt-4 等 ChatGPT 模型在零样本和少样本设置下进行广泛的实证评估，我们的研究结果表明 ChatGPT 在需求分类方面始终优于 LSTM，而在功能需求（FR）分类方面，SVM 优于 ChatGPT。我们的发现强调了 LLMs 在 RE 领域的潜力，并建议它们可以在未来的软件工程流程中发挥重要作用，特别是作为增强需求分类工具。

Abstract

Context and motivation: Recently, large language models (LLMs) like ChatGPT have demonstrated remarkable proficiency in various Natural Language Processing (NLP) tasks. Their application in requirements engineering

large language models requirements engineering requirements classification support vector machine long short-term memory

发现论文，激发创造

基于需求的 LLM 模型生成：一项探索性研究

ChatGPT 能够从自然语言需求中生成 UML 序列图，但生成的模型在完整性和正确性方面存在挑战，尤其在需求不明确和不一致的情况下。此研究对要求工程领域中的大型语言模型的实际应用和有效的模型生成提示策略具有重要影响。

Apr, 2024

利用大型语言模型高效分类编程课程中学生求助请求

通过研究，我们发现 GPT-3.5 和 GPT-4 模型可以准确分类学生的求助请求，并提高教育系统的自动化分类能力。

Oct, 2023

ChatGPT 在需求信息检索中的初步评估

本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估，探讨生成式大语言模型在自然语言处理领域对需求工程的影响，结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。

Apr, 2023

大型语言模型与机器学习在电子商务推荐中的新兴协同效应

电子商务和网络应用的蓬勃发展使得推荐系统成为我们日常生活中重要的一部分，但是现有基于深度神经网络的方法在理解用户兴趣、捕捉文本信息以及推广到不同场景等方面仍存在限制。近期的研究借助大型语言模型的崛起旨在改进推荐系统，本文系统回顾了已有的大型语言模型驱动的推荐系统，介绍了使用大型语言模型作为特征编码器学习用户和物品表示的方法以及在预训练、微调和提示等三个范式下的最新进展，并对这一新兴领域的未来方向进行了全面的讨论。

Mar, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

职场中的大型语言模型：基于提示工程的工作类型分类案例研究

本篇文章研究了在真实情境中使用不同方法进行工作分类任务，其中使用了包括传统模型（如支持向量机）和最先进的深度学习方法（如 DeBERTa）在内的多个文本分类方法。研究表明，使用良好设计的提示，零 - shot GPT-3.5-turbo 分类器的性能优于所有其他模型，并且提示的措辞是激发模型适当 “推理” 的关键因素。

Mar, 2023

从学生话语中预测挑战时刻：GPT-4 与两种传统自然语言处理方法的比较

本研究调查了利用专家知识规则模型、监督式机器学习模型和大型语言模型（LLM）从学生讨论中检测挑战和识别挑战维度（认知、元认知、情感和技术 / 其他挑战）的潜力。结果显示，监督式机器学习和 LLM 在两个任务中表现出色，而基于规则的方法则主要依赖专家设计的特征。该论文对自动检测和支持学生在协作学习活动中遇到的挑战时刻的三种方法的表现进行了广泛讨论。论文认为，尽管 LLMs 具有许多优势，但由于其缺乏可靠性以及在有效性评估、隐私和杂乱性方面存在问题，它们不太可能成为解决学习的社交共享调控的检测和反馈问题的万灵药。我们通过讨论额外的考虑因素来结束该论文，包括模型的透明度，以探索使用 LLMs 为学生和教育工作者提供可行且有意义的分析反馈。

Jan, 2024

使用预训练大型语言模型的零样本垃圾邮件分类

该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨了两种分类方法：（1）仅使用邮件主题和正文的截断原始内容，（2）基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明，Flan-T5 在截断内容方法上的 F1 得分为 90％，而 GPT-4 使用摘要则达到 95％的 F1 得分。尽管这些初步发现表明 LLMs 子任务（例如摘要和分类）的分类管道具有潜力，但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本，以及 LLMs 的一般推断成本，可能会显著阻碍垃圾邮件过滤的实际部署。

May, 2024

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究，我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能，发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当（平均宏 F1 得分为 0.83 vs. 0.75）。研究还表明，如果难以使用大规模标注数据集，LLMs 可以减轻数据标注的负担，但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果，LLMs 可以加快临床自然语言处理研究的执行速度，提高 NLP 变量和结果在临床观察研究中的利用率。

Jan, 2024