在医疗领域中提高大型语言模型中的事实准确性的 UMLS 增强框架

Oct, 2023

在医疗领域中提高大型语言模型中的事实准确性的 UMLS 增强框架

A UMLS-Augmented Framework for Improving Factuality in Large Language Models within Healthcare

Rui Yang, Edison Marrese-Taylor, Yuhe Ke, Lechao Cheng, Qingyu Chen...

TL;DR我们的研究开发了一个基于统一医学语言系统（UMLS）的增强型大型语言模型（LLMs）框架，通过自动和医师评估等方法，实验证明了该框架有效地提高了生成内容的准确性、完整性和相关性，同时突出了大型语言模型在医学问答中的潜在应用价值。

Abstract

large language models (llms) have demonstrated powerful text generation capabilities, bringing unprecedented innovation to the healthcare field. While →

large language models llms unified medical language system umls-augmented llms medical question-answering

发现论文，激发创造

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

核查事实并重试：利用外部知识和自动反馈提高大型语言模型

本研究提出了一种 LLm-Augmenter 系统，它通过使用存储在特定任务数据库中的外部知识和迭代地根据效用函数生成的反馈来改善 LLM 的提示，从而使其生成基于外部知识的响应，实现了应用到任务导向对话和问题回答的实际场景中，显著减少 ChatGPT 模型的幻觉。

Feb, 2023

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

利用医学教材增强黑盒语言模型进行临床问题回答

医学文本书籍作为检索语料库在医疗领域比维基百科更具价值，该研究提出了将医学文本书籍用于增强大规模语言模型（LLMs），并通过插拔式模块集成了医学专业领域的专业知识，以提高 LLMs 在医学相关任务中的专业性和准确性。实验结果显示，使用 LLM-AMT 相比使用维基百科，LLMs 的回答在专业性和准确性上均有显著提高。

Sep, 2023

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

通过半结构化数据和大型语言模型集成自动生成高质量的医学仿真场景

采用半结构化数据与大型语言模型（LLMs）相结合，本研究引入了一种医学教育变革框架，以自动化生成医学模拟场景。该创新显著缩短了场景开发所需的时间和资源，实现了更广泛的模拟类型，提高了参与度和知识获取，突显了人工智能在推动教育成果和患者护理标准方面的关键作用。

Apr, 2024

FACT-GPT: 通过与 LLMs 进行索引匹配的事实检查增强

我们提出了 FACT-GPT 这个系统，利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后，可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明，我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当，与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案，展示了 LLMs 在支持事实核查员方面的潜力，并为该领域的进一步研究提供了宝贵的资源。

Feb, 2024

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

医学中大型语言模型与多模态大型语言模型的综述

该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则，并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变，概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗保健中的巨大价值，调查总结了 6 个有前景的医疗应用。同时讨论了医学 LLMs 和 MLLMs 面临的挑战，并提出了将人工智能与医学进一步整合的可行方法和方向。旨在为研究人员提供一个有价值且全面的参考指南。

May, 2024