大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

Jan, 2024

大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification

PDF

Madhumita Sushil, Travis Zack, Divneet Mandair, Zhiwei Zheng, Ahmed Wali...

TL;DR通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究，我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能，发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当（平均宏 F1 得分为 0.83 vs. 0.75）。研究还表明，如果难以使用大规模标注数据集，LLMs 可以减轻数据标注的负担，但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果，LLMs 可以加快临床自然语言处理研究的执行速度，提高 NLP 变量和结果在临床观察研究中的利用率。

Abstract

Although supervised machine learning is popular for information extraction from clinical notes, creating large annotated datasets requires extensive domain expertise and is time-consuming. Meanwhile, large language mode

supervised machine learning large language models data annotations breast cancer pathology reports clinical nlp studies

发现论文，激发创造

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

大型语言模型中利用标签变异进行零样本文本分类

使用 5 种最先进的大型语言模型（LLMs）作为 “标注者” 在多个任务上进行评估，并比较其与人类标注的优缺点。总体而言，尽管 LLMs 在某些任务上表现出色，但它们无法替代人类标注的需求。

Jul, 2023

大型语言模型的零样本文本分类器

利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。

Dec, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

利用大型语言模型进行临床自然语言处理中基于无知识弱监督的优化

使用弱监督和微调大型语言模型（LLM）的方法，在几乎没有领域知识的情况下，能够在性能上显著优于传统的有限的标准数据的监督方法，利用基于提示的方法，LLM 生成弱标记数据来训练下游的 BERT 模型，然后将弱监督模型进一步在少量的标准数据上进行微调，通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。

Jun, 2024

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

使用预训练大型语言模型的零样本垃圾邮件分类

该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨了两种分类方法：（1）仅使用邮件主题和正文的截断原始内容，（2）基于 ChatGPT 生成的摘要进行分类。基于整个数据集的经验分析结果表明，Flan-T5 在截断内容方法上的 F1 得分为 90％，而 GPT-4 使用摘要则达到 95％的 F1 得分。尽管这些初步发现表明 LLMs 子任务（例如摘要和分类）的分类管道具有潜力，但仍需要在各种数据集上进行进一步验证。专有模型的高运营成本，以及 LLMs 的一般推断成本，可能会显著阻碍垃圾邮件过滤的实际部署。

May, 2024

自动注释中的知识蒸馏：由 LLM 生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

基于 LLM 监督的零训练语义分割

该论文介绍了一种利用大型语言模型（LLM）进行文本监督语义分割的新方法，该方法通过生成更准确的类别表示来提供多样化的分割结果，并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验，我们的方法比传统的文本监督语义分割方法表现出更好的性能。

Mar, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023