LLMs 分类性能被夸大
这项研究通过评估三类模型在八个数据集上完成了三个不同任务(命名实体识别、政党预测和虚假信息检测)的性能,发现大型语言模型在某些任务上表现出色,开源模型通过微调与封闭源模型相媲美,而监督较小的模型(如 RoBERTa)在许多数据集上能够达到甚至超过生成型模型的性能,但封闭模型在需要最强泛化能力的难任务中仍然保持优势,这强调了模型选择在任务需求中的重要性。
Aug, 2023
使用生成的大型语言模型生成的标签对监督文本分类模型进行微调,与使用人工标注的标签相比表现相当,是一种快速、高效和经济有效的构建监督文本分类器的方法。
Jun, 2024
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
May, 2024
使用 5 种最先进的大型语言模型(LLMs)作为 “标注者” 在多个任务上进行评估,并比较其与人类标注的优缺点。总体而言,尽管 LLMs 在某些任务上表现出色,但它们无法替代人类标注的需求。
Jul, 2023
我们提出了一个针对大型语言模型的成本效益查询分配问题的框架,名为 OptLLM,通过使用多标签分类模型进行性能预测,生成一系列优化解决方案,旨在满足用户的预算限制和性能偏好,包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验,包括文本分类、问答、情感分析、推理和日志解析,实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性,相比其他多目标优化算法,OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。
May, 2024
本研究对语言模型(LLMs)的理解能力进行了比较和对照,发现人类分析师和 LLMs 的分类和推理能力存在显著差异,但二者合作可能会产生协同效应,从而丰富了定性研究。
Jun, 2023
我们评估了多种模型,包括传统机器学习模型、预训练语言模型和大型语言模型,比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明,使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果,并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。
Mar, 2024
基于四个不同领域的实验结果,本研究发现,小模型在专家注释的情况下能够以较少标注数据的情况下胜过 GPT-3.5,并且与 GPT-4 在性能上达到或超过其,尽管小模型的规模只有后者的百分之一。因此,我们认为在真实世界的应用中,大型语言模型的预测结果可以作为预热方法,并且通过领域专家的数据注释,实现任务的成功。
Nov, 2023
使用大型语言模型对数学文档进行自动分类,根据 Mathematical Subject Classification 对 arXiv.org 上的预印本文章进行评估,发现大约 60% 的样本中,语言模型的主要分类与 arXiv 上报告的分类相匹配,并且在其中一半的情况下,语言模型还提供了额外的主要分类。大约 40% 的样本中,语言模型提供了与原分类不同的分类,但经过详细检查发现,语言模型提供的分类大多数情况下更准确。
Jun, 2024
基于对 LLMs 在公共卫生任务中的自动评估,将六个外部注释数据集与七个新的内部注释数据集相结合,评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能,发现 Llama-3-70B-Instruct 是性能最好的模型,在 15 个任务中取得最佳结果。这些初步结果表明,LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息,并支持公共卫生监测、研究和干预的有用工具。
May, 2024