探究医疗文本到 SQL 模型和数据集的泛化能力
本文利用深度学习技术提出了一种新的基于 Translate-Edit 模型的健康医疗 Question-to-SQL 语句生成方法,并在公开的电子病历数据库 MIMIC 上进行了广泛实验。结果表明,该方法可适应医疗领域中常见的缩写与错别字,对病情信息的预测表现良好。
Jul, 2019
我们提出了一种新的文本到 SQL 数据集,用于电子健康记录(EHRs)。该数据集提供了一个挑战,需要模型可以生成反映医院需求范围的 SQL 查询,包括简单检索和复杂操作,如计算生存率,同时需要理解时间表达式以回答与时间敏感相关的问题,并根据预测置信度区分问题是否有答案,以发展和评估结构化 EHR 数据上的 QA 模型并迈向文本到 SQL 研究和医疗保健方面部署之间的缩小差距。
Jan, 2023
电子健康档案(EHRs)是存储医院患者整个病史的关系型数据库,通过构建问答系统、利用文本到 SQL 的模型将自然语言问题转化为对应的 SQL 查询并使用这些查询检索答案,可以提供医疗专业人员所需的答案,改进其临床工作流程并满足其需求。
May, 2024
引入一种基于文本到 SQL 生成和检索增强生成(RAG)的端到端方法,利用电子健康记录和索赔数据回答流行病学问题,研究表明该方法显著提高了性能,对提高语言模型能力有应用前景。
Mar, 2024
使用新颖的文本至 SQL 框架,我们处理超出数据库范围或超出系统能力的无法回答的问题,将其标准化并与表模式相结合,以确保准确的数据检索,实现在临床自然语言处理工作坊的 EHRSQL-2024 挑战中具有竞争力的表现。
May, 2024
该研究提出了一种基于机器学习和自然语言处理的方法,叫做 mtGAN,用于生成电子病历文本数据,以解决医疗数据难以获得、保密性高的问题,并在中文电子病历文本数据集上进行了评估,取得了一定的成果。
Dec, 2018
使用大型语言模型(LLM)进行提示和微调的两种方法以生成 EHRSQL 查询,结果表明这些方法在准确执行和可靠性方面都表现优秀,并且集成方法通过减少错误进一步提高了生成的可靠性。这些方法可应用于强调准确性和可靠性的特定领域的文本转 SQL 问题。
May, 2024
通过使用伪标记的无法回答的问题,我们提出了一种自我训练策略,以提高电子健康记录(EHR)的文本转 SQL 模型的可靠性。该方法包括两阶段的训练流程,紧接着使用基于令牌熵和查询执行的过滤方法。在 EHRSQL 2024 共享任务中,我们的方法证明了其有效性并展示了通过更可靠的文本转 SQL 系统改善医疗决策的潜力。
May, 2024
本研究介绍了 EHR-SeqSQL,这是一个面向电子健康记录(EHR)数据库的新颖的顺序文本到 SQL 的数据集。EHR-SeqSQL 旨在解决文本到 SQL 解析中关键且尚未充分探索的方面:互动性、组合性和效率。通过我们的实验证明了多轮方法在学习组合性方面优于单轮方法。此外,我们的数据集将特别设计的记号整合进 SQL 查询以提高执行效率。通过 EHR-SeqSQL,我们旨在弥合文本到 SQL 领域的实际需求和学术研究之间的差距。
May, 2024
为了评估系统在现实世界中未见数据上的泛化能力,本文首先比较了人工生成和自动生成的问题,提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次,我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力,因此提出了评估未来工作的补充数据集划分。最后,我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难,并启发未来研究的有效衡量方法。
Jun, 2018