生物医学自然语言处理中的大型语言模型:基准、基线和建议
基于大型语言模型(LLMs)的研究和应用在生物信息学领域有着巨大潜力和效力,该研究通过分析各种关键生物信息学任务,证明了 LLMs(如 GPT 变体)在给定适当提示的情况下可以成功处理大多数任务,同时也分析了在复杂生物信息学任务中的局限性。
Feb, 2024
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.
Mar, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
我们评估了多种模型,包括传统机器学习模型、预训练语言模型和大型语言模型,比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明,使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果,并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。
Mar, 2024
本文研究了使用大型语言模型(LLMs)对话生物医学背景知识以及从大量的科学文献中提取信息的潜力,以抗生素发现为例,系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力,并发现虽然最新模型在流畅度方面得到了改善,但其事实准确性仍然很低,而且模型存在偏向于过度呈现某些实体的问题。
May, 2023
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca)在 13 项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在 QA 任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型(如 PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
通过独特的基准数据集 NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对 LLMs 性能有时造成损害,尤其是较小的模型 LLAMA-2(13 亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023