电子病历问答文本到 SQL 的生成
通过在医疗文本转 SQL 数据集上创建新的数据集,研究人员展示了当前自然语言处理模型在医疗领域的性能稳定性有待提高,并提出了一种新的数据增强方法来改善这个问题。
Mar, 2023
使用新颖的文本至 SQL 框架,我们处理超出数据库范围或超出系统能力的无法回答的问题,将其标准化并与表模式相结合,以确保准确的数据检索,实现在临床自然语言处理工作坊的 EHRSQL-2024 挑战中具有竞争力的表现。
May, 2024
引入一种基于文本到 SQL 生成和检索增强生成(RAG)的端到端方法,利用电子健康记录和索赔数据回答流行病学问题,研究表明该方法显著提高了性能,对提高语言模型能力有应用前景。
Mar, 2024
我们提出了一种新的文本到 SQL 数据集,用于电子健康记录(EHRs)。该数据集提供了一个挑战,需要模型可以生成反映医院需求范围的 SQL 查询,包括简单检索和复杂操作,如计算生存率,同时需要理解时间表达式以回答与时间敏感相关的问题,并根据预测置信度区分问题是否有答案,以发展和评估结构化 EHR 数据上的 QA 模型并迈向文本到 SQL 研究和医疗保健方面部署之间的缩小差距。
Jan, 2023
电子健康档案(EHRs)是存储医院患者整个病史的关系型数据库,通过构建问答系统、利用文本到 SQL 的模型将自然语言问题转化为对应的 SQL 查询并使用这些查询检索答案,可以提供医疗专业人员所需的答案,改进其临床工作流程并满足其需求。
May, 2024
通过使用伪标记的无法回答的问题,我们提出了一种自我训练策略,以提高电子健康记录(EHR)的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程,紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中,我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。
May, 2024
本研究介绍了 EHR-SeqSQL,这是一个面向电子健康记录(EHR)数据库的新颖的顺序文本到 SQL 的数据集。EHR-SeqSQL 旨在解决文本到 SQL 解析中关键且尚未充分探索的方面:互动性、组合性和效率。通过我们的实验证明了多轮方法在学习组合性方面优于单轮方法。此外,我们的数据集将特别设计的记号整合进 SQL 查询以提高执行效率。通过 EHR-SeqSQL,我们旨在弥合文本到 SQL 领域的实际需求和学术研究之间的差距。
May, 2024
使用大型语言模型(LLM)进行提示和微调的两种方法以生成 EHRSQL 查询,结果表明这些方法在准确执行和可靠性方面都表现优秀,并且集成方法通过减少错误进一步提高了生成的可靠性。这些方法可应用于强调准确性和可靠性的特定领域的文本转 SQL 问题。
May, 2024
利用深度学习的语言模型对医学领域的病历查询进行转换成 SQL 查询的实证研究,并使用熵基方法和基于概率分布的方法过滤无法回答的结果,从而实现了有效的病历查询结果过滤。
Apr, 2024
通过重新利用其他 NLP 任务的现有注释,我们提出了一种新的方法来生成特定领域的大规模问答(QA)数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释,生成了大规模的电子医疗记录 QA 数据集 emrQA,其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对,并通过基线模型训练来探索其学习潜力。
Sep, 2018