- 医疗数据提取工具 MedPromptExtract:使用 NLP 和提示工程实现匿名化和高保真度自动数据提取
医疗记录的无缝数字化面临一个主要障碍,即现有记录的互操作性不足。本论文提出了 MedPromptExtract,一种自动化工具,利用半监督学习、大型语言模型、自然语言处理和提示工程的组合,将非结构化的医疗记录转换为适合进一步分析的结构化数据 - XAIQA:用于提取式问答的基于解释器的数据增强
使用医疗记录自然可用的数据,XAIQA 通过分类模型解释器生成大规模的合成问答对,提升了 GPT-4 作为抽取式问答模型的性能。
- 电子健康记录的问答:数据集和模型的综述
该研究对现有关于电子病历问答的工作进行了方法学综述,发现电子病历问答是相对较新且未被充分探索的研究领域,对于电子病历问答数据集和模型的使用进行了分析。
- 交叉性别与医疗记录中的证言不公正
本研究旨在使用实际医疗数据探讨使用交叉因素的公平度量方法,以更准确地检测在医疗记录中可能导致口述不公的言语,并通过分析人口统计特征的交叉作用,发现不同人群在治疗中受到的不公平待遇差距,并提出解决方案。
- 大语言模型推进意大利生物医学信息提取:方法论洞见与多中心实际应用
该研究创建了第一个意大利神经心理学命名实体识别数据集,PsyNIT,并使用它开发了用于此任务的大型语言模型。通过多中心模型实验,建立了方法论指导,未来还可为意大利医院提供重要的研究机会。
- 可解释的深度聚类
本文提出了一种新的深度学习框架,可以在 instance 和 cluster 级别预测可解释的聚类分配,并在基因组序列、医疗记录或图像等数据上验证了该方法的可靠性和可解释性。
- 使用 Pylogik 进行医学图像去识别、清洗和压缩
提出了一种名为 PyLogik 的 Python 库,用于清理和去识别超声图像中的 PHI 数据,并减小文件大小,以便于数据共享和机器学习应用。处理了 50 个心脏超声图像,结果显示平均 Dice 系数为 0.976,且数据大小平均约减小了 - 如何使用深度学习从中国电子病历中检索缺失的附加诊断,用于 DRG
提出了一个基于自然语言处理 (NLP) 方法的框架,包括三个模块:疾病召回模块、疾病上下文逻辑判断模块和疾病关系比较模块,用于发现已经明确诊断但被漏诊未在出院诊断中的疾病,并且在 DRG 医疗保险支付中已验证其有效性。
- 机器学习隐私泄漏的物理解决方案
介绍了使用物理学方法来改进保护医疗记录等隐私数据的机器学习系统,采用张量网络架构来保证特定类型的保密泄漏并取得了相对较好的效果。
- AAAI通过拓扑分析从临床表型推断 COVID-19 生物途径
本研究提出了一种基于拓扑属性的流程来帮助医生分析 COVID-19 临床记录,可以提取有意义的路径。该流程包括三个步骤:1)预处理临床记录以提取重要概念,2)构建患者的特征空间以表征提取的概念,最后,3)利用拓扑特性提取可用知识并可视化结果 - 合成医疗数据的真实性和隐私
该论文探讨了使用合成数据作为医学创新的一种替代方法来保护患者隐私的可行性,提出了一个新的框架来量化合成数据的统计保真度和隐私保护性能,并利用 Syntegra 技术生成的合成数据来证明这些指标。
- 改进上下文化神经语言模型的临床笔记表型描述
通过对临床记录进行语义学分析,可以帮助精确地提取出患者的病情,进而为医疗决策和医疗档案二次利用提供支持;本研究探索了几种基于 BERT 模型的病情提取机制,避免了传统的手工规则的繁琐操作,实验结果表明这种机制在病情识别上具有较高的性能,可适 - ACL音频去识别化:一项新的实体识别任务
该文定义了语音去识别中的实体提取任务,并提出了一种包括音频转录、实体信息提取和音频流对齐等环节的处理流程,并基于 Switchboard 和 Fisher 音频数据集提出了一个新的音频去识别度量标准和评估基准,并对其结果进行了详细说明。
- 差分隐私生成对抗网络
本文通过在学习过程中添加特别设计的梯度噪声来实现差分隐私的生成对抗网络(DPGAN),以解决 GAN 在应用于私人或敏感数据时可能泄露关键信息的问题,并提供隐私保障的严格证明和全面的实证证据。
- DeepCare:一种用于预测医疗的深度动态记忆模型
本文介绍了一种名为 DeepCare 的深度动态神经网络,用于预测医疗结果,其基于医疗记录建模,包括以往病史、当前病情以及将来的分析,表现出了良好的疾病进展建模、干预建议和风险预测的效果。