评估ChatGPT家族模型在生物医学推理和分类中的表现
本研究旨在探究将ChatGPT应用于临床文本挖掘中,针对生物命名实体识别和关系抽取,我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明,这种方法显著提高了下游任务的性能,同时缓解了数据隐私问题。
Mar, 2023
本研究通过实验验证了GPT-3和GPT-4在8个BioNLP应用中的性能表现,并对其识别错误进行了分析,提出了在BioNLP应用中使用LLMs的建议。
May, 2023
本文旨在评估ChatGPT在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT甚至优于最先进的经调优生成变换器模型(如BioGPT和BioBART),这表明ChatGPT在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
该研究调查了大型语言模型在生物医学和健康领域中的多种应用,包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等,并研究了LLM是否具有革新这些任务的能力,发现LLMs在生物医学文献生成方面已取得了显著进展,但在其他方面,其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大,但其使用也存在某些风险和挑战,例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。
Jun, 2023
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct和Alpaca)在13项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在QA任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和RE任务的性能低于专门训练用于医学领域的模型(如PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
该研究提出了一种创新的方法,在临床决策中应用大型语言模型(LLMs),重点关注OpenAI的ChatGPT。我们的方法介绍了在数据稀缺情况下,采用上下文提示(策略性地设计了包括任务描述、特征描述和领域知识整合的提示)进行高质量二元分类任务的应用。我们的研究探索了LLMs基于零样本和少样本提示学习的动态性,通过比较OpenAI的ChatGPT在不同数据条件下与传统监督式机器学习模型的性能,旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁,提出了一种新的LLMs在临床决策辅助系统中的应用方法,并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。
Aug, 2023
利用指令调整(instruction tuning)技术,对两个规模庞大的通用语言模型进行研究,以期在生物医学自然语言处理任务上取得类似于BioBERT和BioClinicalBERT等特定编码器模型的结果,并提供了相应的代码、模型和基于指令的数据集。
Dec, 2023
通过自然语言处理和多模态范式,ChatGPT 探索了医学诊断、治疗建议和其他医疗支持的问题回答的战略蓝图,在医学领域数据的逐渐整合下,这些技术加快了医学领域问题回答的进展,通过连接人类自然语言与医学领域知识或专家手动注释的空白,处理了医学环境下大规模、多样化、不平衡或无标签数据分析的场景,强调了在不同任务和数据集中的应用,并概述了当前的挑战和未来医学领域研究的机遇和创新。
Jan, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024
本研究针对现有生物医学领域大型语言模型(LLMs)文献缺乏综合分析的现状,进行了深入探讨。文章分析了484篇相关文献,探讨了LLMs在诊断辅助、药物发现和个性化医疗等任务中的能力,并指出在特定应用中提高模型表现的调适策略。此外,研究还揭示了数据隐私、模型可解释性等挑战,并提出未来的研究方向。
Aug, 2024