CALLA 数据集:探索 LLMs 对中医文献的互动知识获取
大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐,以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略,该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明,该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。
Sep, 2023
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。
Jun, 2024
利用大型语言模型(LLMs)协助和纠正医生在医疗决策任务中的潜力进行探索,研究评估了几个 LLMs,包括 Meditron、Llama2 和 Mistral,以分析这些模型在不同场景下与医生有效互动的能力,并认为提示设计显著影响 LLMs 的下游准确性,LLMs 能够为医生提供有价值的反馈,挑战错误诊断,促进更准确的决策,同时还揭示了确保 LLM 生成的建议相关和有用的挑战,强调了进一步研究的需求。
Mar, 2024
通过构建基准测试并评估通用和专用语言模型,我们发现通用语言模型在原子知识和指令遵循能力方面表现更好,而专用语言模型在提供安全性方面表现较差,在提炼数据方面可以通过通用语言模型学习。此外,我们还发现提炼数据对于专用语言模型的微调效果最佳。
Oct, 2023
通过构建医学助手和医生之间的合作,我们建立了一个医学数据集 DoctorFLAN,用于支持医生的全部工作流程,并通过构建医生定向场景的评估来验证该数据集的有效性。
Jun, 2024
为了解决大型语言模型(LLM)在医学领域中知识局限导致产生虚假医学事实的困境,本研究提出了知识调整的方法,利用结构化的医学知识库帮助 LLMs 有效掌握领域知识,从而实现可靠的回答生成。通过引入基于医学知识库构建的中文医学知识问答数据集 cMedKnowQA,实验结果表明,经过 cMedKnowQA 知识调整的 LLMs 在回答生成上表现出更高的准确性,为 LLMs 的领域适应提供了可靠的新途径。
Sep, 2023
通过内外知识的上下文学习,我们提出了一种新的框架来解决由于缺乏领域特定知识而导致的大型语言模型生成虚构信息的问题,并通过两个阶段的任务处理来提高病灶信息提取的准确性和可靠性。
Jun, 2024
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024