CALLA 数据集：探索 LLMs 对中医文献的互动知识获取

Sep, 2023

CALLA 数据集：探索 LLMs 对中医文献的互动知识获取

The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature

Yanrui Du, Sendong Zhao, Yuhan Chen, Rai Bai, Jing Liu...

TL;DR使用 CALLA 数据集验证了以医学文献为基础的指导微调数据对大型语言模型在医学领域的知识获取能力、互动应用和准确性的促进作用。

Abstract

The application of large language models (LLMs) to the medical domain has stimulated the interest of researchers. Recent studies have focused on constructing →

large language models medical domain instruction fine-tuning interactive medical knowledge calla dataset

发现论文，激发创造

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

LLMs 在医学领域中能有效纠正医生吗？研究有效的交互方法

利用大型语言模型（LLMs）协助和纠正医生在医疗决策任务中的潜力进行探索，研究评估了几个 LLMs，包括 Meditron、Llama2 和 Mistral，以分析这些模型在不同场景下与医生有效互动的能力，并认为提示设计显著影响 LLMs 的下游准确性，LLMs 能够为医生提供有价值的反馈，挑战错误诊断，促进更准确的决策，同时还揭示了确保 LLM 生成的建议相关和有用的挑战，强调了进一步研究的需求。

Mar, 2024

中文医药大语言模型中的健康相关原子知识的计算分析

通过构建基准测试并评估通用和专用语言模型，我们发现通用语言模型在原子知识和指令遵循能力方面表现更好，而专用语言模型在提供安全性方面表现较差，在提炼数据方面可以通过通用语言模型学习。此外，我们还发现提炼数据对于专用语言模型的微调效果最佳。

Oct, 2023

医生的 LLM：利用医学 LLM 来协助医生，而不是取代他们

通过构建医学助手和医生之间的合作，我们建立了一个医学数据集 DoctorFLAN，用于支持医生的全部工作流程，并通过构建医生定向场景的评估来验证该数据集的有效性。

Jun, 2024

使用结构化医学知识库对大型语言模型进行知识调整，以提高中文可靠性的响应生成

为了解决大型语言模型（LLM）在医学领域中知识局限导致产生虚假医学事实的困境，本研究提出了知识调整的方法，利用结构化的医学知识库帮助 LLMs 有效掌握领域知识，从而实现可靠的回答生成。通过引入基于医学知识库构建的中文医学知识问答数据集 cMedKnowQA，实验结果表明，经过 cMedKnowQA 知识调整的 LLMs 在回答生成上表现出更高的准确性，为 LLMs 的领域适应提供了可靠的新途径。

Sep, 2023

基于知识条件化 LLMs 的自动临床数据提取

通过内外知识的上下文学习，我们提出了一种新的框架来解决由于缺乏领域特定知识而导致的大型语言模型生成虚构信息的问题，并通过两个阶段的任务处理来提高病灶信息提取的准确性和可靠性。

Jun, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

FactLLaMA: 使用外部知识优化指令跟随语言模型以进行自动事实检验

结合外部证据检索并利用这些证据对指令遵循的语言模型进行指导调优，从而提高事实核实任务的性能。

Sep, 2023