开源语言模型能与商业模型竞争吗？探索当前 GPT 模型在生物医学任务中的少样本性能

Jul, 2024

开源语言模型能与商业模型竞争吗？探索当前 GPT 模型在生物医学任务中的少样本性能

Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks

HTML

PDF

Samy Ateia, Udo Kruschwitz

TL;DR商业大型语言模型在自然语言处理领域的基准测试中表现出色，与开源模型相比，它们具有更高的吞吐量且成本较低，但在少量样本和零样本情况下性能有所差距。

Abstract

Commercial large language models (llms), like OpenAI's GPT-4 powering ChatGPT and Anthropic's Claude 3 Opus, have dominated natural language processing (NLP) benchmarks across different domains. New competing Ope

发现论文，激发创造

评估ChatGPT家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

ChatGPT模型在生物医学任务中的零样本性能探究

本文评估了商业Large Language Models (LLMs) GPT-3.5-Turbo和GPT-4在2023 BioASQ挑战的任务中的表现，其中0-shot learning和相关段落达到了竞争水平。

Jun, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT和人工服务（如MTurk）在文本标注任务中的表现。发现开源LLMs在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然ChatGPT在大多数任务中表现最好，但开源LLMs在特定任务中也有较高的竞争潜力。

Jul, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估LLMs在基准生物医学任务中的性能。为此，我们对26个数据集中6个不同生物医学任务的4种流行LLMs进行了全面评估。据我们所知，这是第一次在生物医学领域对各种LLMs进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使LLMs在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个LLM能够胜过其他LLMs，不同LLMs的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

弥合开源与商业大型语言模型在医学证据总结中的差距

本研究解决了开源大型语言模型（LLM）在医学证据总结中的表现不足问题。通过对三种常用的开源模型进行微调，研究发现微调后的模型在总结性能上有显著提升，接近于商业模型的表现。这一发现为在特定领域任务中选择和优化合适的模型提供了重要指导，具有潜在的应用价值。

Jul, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性，发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中，小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设，并强调了在医疗人工智能中需要更严格的评估框架。

Aug, 2024

生物医学中大型语言模型的调查

本研究针对现有生物医学领域大型语言模型(LLMs)文献缺乏综合分析的现状，进行了深入探讨。文章分析了484篇相关文献，探讨了LLMs在诊断辅助、药物发现和个性化医疗等任务中的能力，并指出在特定应用中提高模型表现的调适策略。此外，研究还揭示了数据隐私、模型可解释性等挑战，并提出未来的研究方向。

Aug, 2024

部署开源大型语言模型：性能分析

本研究解决了在部署开源大型语言模型（LLMs）时对性能评估缺乏明确标准的问题。通过在波尔多大学的Inria中心进行多项测试，本文比较了不同尺寸模型（主要是Mistral和LLaMa）的性能，并利用vLLM库优化推理。研究结果为希望部署LLMs的公共和私人团体提供了重要信息，促进了这类模型在各应用领域的采用和使用。

Sep, 2024

重新思考规模：微调开源大语言模型在大规模可重复社会科学研究中的有效性

本研究解决了使用大型闭源模型在社会科学研究中面临的透明度不足、数据隐私风险和高成本等问题。通过证明小型微调的开源大语言模型在性能上可以与ChatGPT-4等大型模型相媲美，本研究不仅揭示了训练集规模与微调效果之间的关系，还提出了结合开源与闭源模型优势的混合工作流程，提高了研究的透明性和可重复性。

Oct, 2024