ChatGPT模型在生物医学任务中的零样本性能探究
本研究比较了 GPT-3 和较小的预训练语言模型在少样本情况下在生物医学信息提取的性能,结果显示 GPT-3 的性能显著低于较小的预训练模型,同时对于信息提取任务可能会存在问题。因此作者建议在生物医学领域使用较小的预训练语言模型进行微调。
Mar, 2022
本文通过对20个流行的任务数据集进行评估,就ChatGPT的零-shot学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
本文对GPT-3.5和GPT-4进行全面技术评估,发现GPT-4在几乎所有测试任务中优于GPT-3.5,并提出一组改良数据来提高两种模型的零样本学习能力。
May, 2023
本文旨在评估ChatGPT在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT甚至优于最先进的经调优生成变换器模型(如BioGPT和BioBART),这表明ChatGPT在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
本研究评估了使用ChatGPT回答医学问题的可靠性,结果发现ChatGPT的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT等语言学习模型可以成为e-learners的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
使用提示工程和GPT-3.5进行生物医学问题聚焦多文档摘要,我们的系统在2023BioASQ挑战中通过GPT-3.5和适当的提示获得了最佳的ROUGE-F1结果。这篇论文证实了在其他领域观察到的事实:纳入少样本的提示通常优于对应的零样本变体;检索增强生成实现了最大的改进。这些提示使得我们的最佳运行结果在BioASQ11b排名前两位,证明了在一般情况下,使用适当的提示对于大语言模型以及GPT-3.5在问题聚焦摘要中的强大作用。
Nov, 2023
我们评估了GPT在四个封闭式生物医学机器阅读理解基准测试上的表现,提出了一种名为Implicit Retrieval Augmented Generation(IRAG)的提示策略,该策略通过减少传统RAG设置中使用向量数据库检索重要部分的需求来解决LLM所固有的检索问题,并通过定性评估展示了该方法的自然语言生成输出。实验结果表明,我们的新提示技术在四个数据集中有两个取得了最佳效果,并在其余两个中排名第二。实验还表明,像GPT这样的现代LLM,即使在零-shot设置中,也能胜过监督模型,从而在两个基准测试中取得了最新技术水平的成果。
May, 2024
商业大型语言模型在自然语言处理领域的基准测试中表现出色,与开源模型相比,它们具有更高的吞吐量且成本较低,但在少量样本和零样本情况下性能有所差距。
Jul, 2024