电子病历问答文本到 SQL 的生成

Jul, 2019

Text-to-SQL Generation for Question Answering on Electronic Medical Records

Ping Wang, Tian Shi, Chandan K. Reddy

TL;DR本文利用深度学习技术提出了一种新的基于 Translate-Edit 模型的健康医疗 Question-to-SQL 语句生成方法，并在公开的电子病历数据库 MIMIC 上进行了广泛实验。结果表明，该方法可适应医疗领域中常见的缩写与错别字，对病情信息的预测表现良好。

Abstract

electronic medical records (EMR) contain comprehensive patient information and are typically stored in a relational database with multiple tables. Effective and efficient patient information retrieval from EMR data is a challenging task for medical experts. →

electronic medical records question-to-sql generation healthcare domain deep learning mimicsql

发现论文，激发创造

探究医疗文本到 SQL 模型和数据集的泛化能力

通过在医疗文本转 SQL 数据集上创建新的数据集，研究人员展示了当前自然语言处理模型在医疗领域的性能稳定性有待提高，并提出了一种新的数据增强方法来改善这个问题。

Mar, 2023

KU-DMIS 在 EHRSQL2024 上的研究：通过问题模板化生成 SQL 查询

使用新颖的文本至 SQL 框架，我们处理超出数据库范围或超出系统能力的无法回答的问题，将其标准化并与表模式相结合，以确保准确的数据检索，实现在临床自然语言处理工作坊的 EHRSQL-2024 挑战中具有竞争力的表现。

May, 2024

利用电子健康记录的流行病学问题回答中的检索辅助文本转 SQL 生成

引入一种基于文本到 SQL 生成和检索增强生成（RAG）的端到端方法，利用电子健康记录和索赔数据回答流行病学问题，研究表明该方法显著提高了性能，对提高语言模型能力有应用前景。

Mar, 2024

电子病历文本到 SQL 的实用基准测试

我们提出了一种新的文本到 SQL 数据集，用于电子健康记录（EHRs）。该数据集提供了一个挑战，需要模型可以生成反映医院需求范围的 SQL 查询，包括简单检索和复杂操作，如计算生存率，同时需要理解时间表达式以回答与时间敏感相关的问题，并根据预测置信度区分问题是否有答案，以发展和评估结构化 EHR 数据上的 QA 模型并迈向文本到 SQL 研究和医疗保健方面部署之间的缩小差距。

Jan, 2023

EHRSQL 2024 可靠电子健康记录文本到 SQL 建模共享任务概述

电子健康档案（EHRs）是存储医院患者整个病史的关系型数据库，通过构建问答系统、利用文本到 SQL 的模型将自然语言问题转化为对应的 SQL 查询并使用这些查询检索答案，可以提供医疗专业人员所需的答案，改进其临床工作流程并满足其需求。

May, 2024

LG AI Research & KAIST 参与 EHRSQL 2024：利用伪标记的无法回答的问题自我训练大语言模型，构建可靠的电子病历文本到 SQL 系统

通过使用伪标记的无法回答的问题，我们提出了一种自我训练策略，以提高电子健康记录（EHR）的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程，紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中，我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。

May, 2024

EHR-SeqSQL: 用于交互式探索电子健康记录的序列文本到 SQL 数据集

本研究介绍了 EHR-SeqSQL，这是一个面向电子健康记录（EHR）数据库的新颖的顺序文本到 SQL 的数据集。EHR-SeqSQL 旨在解决文本到 SQL 解析中关键且尚未充分探索的方面：互动性、组合性和效率。通过我们的实验证明了多轮方法在学习组合性方面优于单轮方法。此外，我们的数据集将特别设计的记号整合进 SQL 查询以提高执行效率。通过 EHR-SeqSQL，我们旨在弥合文本到 SQL 领域的实际需求和学术研究之间的差距。

May, 2024

PromptMind 团队在 EHRSQL-2024 上：使用集成 LLMs 提高 SQL 生成的可靠性

使用大型语言模型（LLM）进行提示和微调的两种方法以生成 EHRSQL 查询，结果表明这些方法在准确执行和可靠性方面都表现优秀，并且集成方法通过减少错误进一步提高了生成的可靠性。这些方法可应用于强调准确性和可靠性的特定领域的文本转 SQL 问题。

May, 2024

EHRSQL 2024 中的 ProbGate: 通过概率阈值过滤和错误处理提高 SQL 查询生成的准确性

利用深度学习的语言模型对医学领域的病历查询进行转换成 SQL 查询的实证研究，并使用熵基方法和基于概率分布的方法过滤无法回答的结果，从而实现了有效的病历查询结果过滤。

Apr, 2024

emrQA：基于电子病历的问题回答的大型语料库

通过重新利用其他 NLP 任务的现有注释，我们提出了一种新的方法来生成特定领域的大规模问答（QA）数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释，生成了大规模的电子医疗记录 QA 数据集 emrQA，其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对，并通过基线模型训练来探索其学习潜力。

Sep, 2018