如何确定？教会生成式语言模型参考生物医学问题的答案

Jul, 2024

如何确定？教会生成式语言模型参考生物医学问题的答案

How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić...

TL;DR通过使用生物医学检索增强生成 (RAG) 系统，将具有参考文献的问题答案引入经过微调的大型语言模型 (LLM)，并使用 PubMed 文摘验证答案，本研究在提供准确可靠答案方面取得了显著进展。

Abstract

large language models (LLMs) have recently become the leading source of answers for users' questions online. Despite their ability to offer eloquent answers, their accuracy and reliability can pose a significant challenge. This is especially true for sensitive domains such as biomedici

发现论文，激发创造

利用医学教材增强黑盒语言模型进行临床问题回答

医学文本书籍作为检索语料库在医疗领域比维基百科更具价值，该研究提出了将医学文本书籍用于增强大规模语言模型（LLMs），并通过插拔式模块集成了医学专业领域的专业知识，以提高LLMs在医学相关任务中的专业性和准确性。实验结果显示，使用LLM-AMT相比使用维基百科，LLMs的回答在专业性和准确性上均有显著提高。

Sep, 2023

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用84k个过滤后的生物医学指令集训练Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为7.2％，超过了参数大小为7B或更少的最先进的开放式基础模型。我们将数据和模型权重（7B和13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型(LLMs)为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从Yahoo! Answers收集实验室测试问题和答案数据，并使用LangChain框架和ChatGPT网络门户为53个问题生成了来自GPT-4、Meta LLaMA 2、MedAlpaca和ORCA_mini四个LLM的回答。通过评估相似度和医学专家的人工评估，结果表明GPT-4的回答在相关性、准确性、有帮助性和安全性方面优于其他LLMs和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高LLM回答质量的多种方法。

Jan, 2024

大型语言模型中的检索增强生成的开发与测试--一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制LLMs中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的LLM-RAG流程，验证了其可行性。

Jan, 2024

工具呼叫：通过检索增强大型语言模型提升药物咨询

基于检索增强生成（RAG）的大规模语言模型（LLMs）在医学领域的知识密集型任务中表现出显著的性能提升，着重研究了利用LLMs和RAG框架回答基于医药数据库的查询问题，并提出了Distill-Retrieve-Read框架用于关键字搜索，实验结果证明了该框架在证据检索准确性方面的优势。

Apr, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种LLMs（如GPT和Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

通过迭代跟进问题改进医学中的检索增强生成

本研究解决了大型语言模型在复杂医学问题中检索增强生成（RAG）能力不足的问题。我们提出了医学迭代RAG（i-MedRAG），能够基于先前的信息获取逐步提出后续问题，从而改善医学问答性能。实验结果表明，i-MedRAG在回答复杂医学问题上优于传统RAG，尤其在零-shot设置下在MedQA数据集上实现了69.68%的准确率。

Aug, 2024

通过大型语言模型增强医疗保健：关于医学问答的研究

本研究针对大型语言模型在医疗保健中的应用，通过对MedQuAD医学问答数据集进行深入分析，识别出最有效的模型。研究发现，Sentence-t5与Mistral 7B的组合在提供准确医疗信息方面表现优越，精度达0.762，突显了高级预训练技术和有效的提示构建方法在医疗知识获取中的潜力。

Aug, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性，发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中，小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设，并强调了在医疗人工智能中需要更严格的评估框架。

Aug, 2024