应用大型语言模型 API 解决问题分类问题
使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类,与人工干预程度相关的三种使用情景中,我们的结果表明完全依赖最小化人工干预的 GPT 不够充分,人工投入程度越高准确性越高,并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而,优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现,暗示着类似我们的方法相对容易实施,并可实现对大多数给定数据集的自动编码,从而节省资源并降低成本。
Oct, 2023
本论文介绍了 CatIss,一种基于 Transformer 的预训练 RoBERTa 模型的自动 ISSue 报告分类器。该模型成功在 NLBSE 工具竞赛提供的数据集中进行了微调,经评估其在约 8 万个 GitHub issue 报告上表现良好,取得了 87.2%的 F1 分数。此外,CatIss 是一种通用的预测模型,可应用于任何未见过的软件项目或历史数据很少的项目。
Mar, 2022
本研究通过使用 DeBERTa 技术,对 53 年的开源数据集进行了自动故障调整的任务进行了量化和定性分析,结果表明 DeBERTa 是在开发者和组件分配等任务中最有效的技术。
Oct, 2023
本论文提出了一种分类方法,使用一系列经过精心筛选的语言特征来识别错误的类型,并将错误分配给设计师、开发人员、测试人员和领导者这四个角色中的一个,表明了其更一般的解决方案。与深层语言模型相比,我们使用浅层机器学习模型和集成方法,并展示其在精度上的可比性。
Jun, 2023
本文研究使用多种技术手段和模型,实现在英文和法语子任务中以高精度识别新闻文章中的 ESG 问题,并获得优异的表现。结果突显了应用先进的语言模型技术在获取跨语言 ESG 问题方面的潜力。
Jun, 2023
本篇文章研究了在真实情境中使用不同方法进行工作分类任务,其中使用了包括传统模型(如支持向量机)和最先进的深度学习方法(如 DeBERTa)在内的多个文本分类方法。研究表明,使用良好设计的提示,零 - shot GPT-3.5-turbo 分类器的性能优于所有其他模型,并且提示的措辞是激发模型适当 “推理” 的关键因素。
Mar, 2023
该研究评估了大型语言模型对于改善交通事故管理中的机器学习过程的影响,研究了使用事故报告对事故严重程度进行分类时,由现代语言模型生成的特征在改进或匹配预测准确性方面的程度,并进行了多个比较以验证语言模型和机器学习算法的组合。研究结果显示,将语言模型的特征与直接从事故报告中获取的特征进行结合,可以在分配事故严重级别时提高或至少与机器学习技术的性能相匹配,尤其是在采用随机森林和极限梯度提升方法时。该研究对于展示如何将大型语言模型整合到事故管理的机器学习工作流程中,从而简化从非结构化文本中提取特征并改进或匹配事故严重程度预测的精度具有重要贡献。通过有效利用这些语言处理模型来改进事故严重级别分类的建模过程,该研究展示了工程应用实例。本研究为在传统数据基础上利用语言处理能力改进机器学习流程、进行事故严重程度分类提供了重要洞见。
Mar, 2024
本文介绍了一种基于 BERT 架构的新型模型 seBERT,通过对该模型进行 微调,针对 NLBSE 挑战任务的问题类型预测,我们的模型在召回率和精确度上 均优于基准 fastText 模型,最终取得了 85.7% 的 F1 分数,比基准模型提高了 4.1%。
May, 2022
研究了机器学习系统和传统软件系统之间的问题报告需求和解决过程的差异,并通过 GitHub 上的应用机器学习项目中的真实问题报告,探究了机器学习问题和非机器学习问题的解决时间和代码修改量等方面的差异。
Sep, 2022