大型语言模型与查询工程在生物医学多文档摘要中的应用
本文综合系统地对五个临床自然语言处理任务(临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取)的提示工程进行了实验研究,评估了多种提示类型在三种先进的大型语言模型(GPT-3.5、BARD 和 LLAMA2)上的性能,并提出了对临床 NLP 领域提示工程的新见解和指南。
Sep, 2023
该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验,测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明,GPT 模型通常会产生冗长的摘要,并偏离人类摘要指南。然而,使用人类指南作为中间步骤显示出一定的潜力,在某些情况下优于直接的字数限制提示。结果显示,GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降,说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性,但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。
Oct, 2023
通过使用两种不同的提示策略(即 shot 提示和 pattern 提示),该研究通过结合范围和领域上下文,改善了自动医学报告的性能,并且获得了最高分数,超过了一般执业医生的参考文献。然而,由于报告中添加了冗余和相关陈述,自动报告的长度大约是人工参考的两倍。
Nov, 2023
将提示技术作为检索系统中的最后阶段,通过 BM25 预排名和基于 BERT 的再排名的支持,最大限度地提高提示的潜力,从而显着提高了检索准确性。
Mar, 2024
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023
利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法,利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容,创建了一个名为 EduProbe 的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法,并使用预训练的大型语言模型进行了微调。通过自动评估,我们发现 T5(使用长提示)表现优于其他模型,但仍然低于人类基准。在人类评估标准下,TextDavinci-003 通常在各种提示设置下表现更好。即使在人类评估标准下,问题生成模型也大多低于人类基准。
Dec, 2023
通过利用 GPT-3 作为算法骨干并采用低样本学习和集成方法,我们介绍了一种算法来创建合成训练数据,以明确关注捕捉医学相关信息,结果相当于采用 6400 个人标记的示例,能够制作出高质量的摘要,就医学准确性和连贯性而言,这种方法产生的摘要明显优于单纯使用人工标记数据进行训练的模型生成的摘要。
Sep, 2021
本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估,发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
我们评估了 GPT 在四个封闭式生物医学机器阅读理解基准测试上的表现,提出了一种名为 Implicit Retrieval Augmented Generation(IRAG)的提示策略,该策略通过减少传统 RAG 设置中使用向量数据库检索重要部分的需求来解决 LLM 所固有的检索问题,并通过定性评估展示了该方法的自然语言生成输出。实验结果表明,我们的新提示技术在四个数据集中有两个取得了最佳效果,并在其余两个中排名第二。实验还表明,像 GPT 这样的现代 LLM,即使在零 - shot 设置中,也能胜过监督模型,从而在两个基准测试中取得了最新技术水平的成果。
May, 2024
评估大型语言模型在医疗错误识别和修正方面的能力,提出了多种提示策略来显著提高模型的修正能力,并讨论了错误句子位置、提示角色和选项位置对模型准确性的影响。该研究表明,尽管具有潜力,但是否准备好将大型语言模型应用于真实临床环境仍然需要进一步研究。
May, 2024