利用电子健康记录的流行病学问题回答中的检索辅助文本转 SQL 生成

Mar, 2024

利用电子健康记录的流行病学问题回答中的检索辅助文本转 SQL 生成

Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records

Angelo Ziletti, Leonardo D'Ambrosi

TL;DR引入一种基于文本到 SQL 生成和检索增强生成（RAG）的端到端方法，利用电子健康记录和索赔数据回答流行病学问题，研究表明该方法显著提高了性能，对提高语言模型能力有应用前景。

Abstract

electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and →

electronic health records claims data real-world data text-to-sql generation healthcare utilization

发现论文，激发创造

电子病历问答文本到 SQL 的生成

本文利用深度学习技术提出了一种新的基于 Translate-Edit 模型的健康医疗 Question-to-SQL 语句生成方法，并在公开的电子病历数据库 MIMIC 上进行了广泛实验。结果表明，该方法可适应医疗领域中常见的缩写与错别字，对病情信息的预测表现良好。

Jul, 2019

基于检索增强生成的问答型电子健康记录摘要

电子健康记录的总结可以极大地减少患者和医务人员的 “屏幕时间”。近年来，通过使用最先进的神经模型，电子健康记录的总结已经采用了机器学习流程。然而，这些模型产生了不够令人满意的结果，这要归因于很难获取足够的注释数据进行训练。此外，考虑到电子健康记录的整个内容在总结中的要求，由于现代大型语言模型（LLMs）中的注意机制增加了二次复杂度，导致性能较差。我们在此提出了一种方法，通过结合语义搜索、检索增强生成（RAG）和使用最新的 LLMs 的问答方法来减轻这些缺点。在我们的方法中，总结是根据专业学科专家（SMEs）认为的重要问题的答案的提取。我们的方法非常高效；几乎不需要训练；不会受到 LLMs 的 “幻觉” 问题的困扰；而且可以确保多样性，因为总结中不会有重复的内容，而是针对特定问题的多样答案。

Jan, 2024

电子病历文本到 SQL 的实用基准测试

我们提出了一种新的文本到 SQL 数据集，用于电子健康记录（EHRs）。该数据集提供了一个挑战，需要模型可以生成反映医院需求范围的 SQL 查询，包括简单检索和复杂操作，如计算生存率，同时需要理解时间表达式以回答与时间敏感相关的问题，并根据预测置信度区分问题是否有答案，以发展和评估结构化 EHR 数据上的 QA 模型并迈向文本到 SQL 研究和医疗保健方面部署之间的缩小差距。

Jan, 2023

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

EHRSQL 2024 可靠电子健康记录文本到 SQL 建模共享任务概述

电子健康档案（EHRs）是存储医院患者整个病史的关系型数据库，通过构建问答系统、利用文本到 SQL 的模型将自然语言问题转化为对应的 SQL 查询并使用这些查询检索答案，可以提供医疗专业人员所需的答案，改进其临床工作流程并满足其需求。

May, 2024

探究医疗文本到 SQL 模型和数据集的泛化能力

通过在医疗文本转 SQL 数据集上创建新的数据集，研究人员展示了当前自然语言处理模型在医疗领域的性能稳定性有待提高，并提出了一种新的数据增强方法来改善这个问题。

Mar, 2023

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023

融合 RAG 以提升多模态电子健康记录预测建模的 EMERGE

利用 EMERGE 框架、Retrieval-Augmented Generation (RAG) 驅動，提取多模態電子健康紀錄 (EHR) 中的實體，並結合專業 PrimeKG 確保一致性，以加強多模態 EHR 預測建模並生成患者健康狀態相關摘要，通過交叉注意的自適應多模態融合網絡與其他模態進行融合，並在 MIMIC-III 和 MIMIC-IV 資料集上的實驗中證明 EMERGE 框架相對於基線模型的優越性，徹底研究和分析驗證了每個設計模組的有效性，以及該框架對於數據稀疏性的魯棒性。EMERGE 顯著提高了多模態 EHR 數據在醫療保健中的應用，彌補了對於知情臨床預測至關重要的細緻醫學背景的差距。

May, 2024

肿瘤检索生成分类器

利用生成式大语言模型检索和提取信息，构建领域特定的检索器，为临床医疗组织提供解决真实世界电子病历数据查询问题的路径。

Apr, 2024

在检索增强生成中寻找最佳实践

通过研究现有的 RAG 方法及其潜在组合，我们提出了几种既能兼顾性能又能提高效率的 RAG 策略，并证明多模态检索技术能显著增强对视觉输入的问答能力，并使用 “检索即生成” 策略加速多模态内容的生成。

Jul, 2024