- Synth-SBDH:临床文本中的社会行为和健康决定因素的合成数据集
社会和行为健康决定因素在健康结果中起着关键作用,本研究引入了具有详细 SBDH 注释的新型合成数据集 Synth-SBDH,并展示了其在临床数据集上的实用性、泛化能力和提炼能力。
- 高效的生物医学实体链接:低资源技术下的临床文本标准化
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现 - WangLab 在 MEDIQA-CORR 2024 中的优化基于 LLM 的医疗错误检测和校正程序
医疗文件中的医疗错误对患者安全构成重大风险。本文介绍了我们在三个子任务中均取得顶尖表现的方法,即错误检测、错误句子提取和生成纠正句子。我们利用外部医学问答数据集开发了一套基于检索的系统用于处理微妙错误的 MS 数据集,同时对于反映更真实的临 - 临床文本中实体修饰词的转移学习:用于阿片类物质使用障碍案例检测
通过多任务学习和迁移学习方法,我们有效地解决了临床文本实体修饰符的预测问题,并在性能上超过了先前的系统,验证了对临床文本修饰符的迁移学习的可行性。
- 利用机器翻译的事实性检测 —— 德国临床文本的应用案例
使用机器翻译将英文数据翻译为德文,以训练基于变压器的事实检测模型,以解决临床文本中的事实性问题。
- 影响生物医学 NER 准确度的外在因素
本文研究使用有限的数据,探究语料库标注计划、数据增强技术、半监督学习和 Brill 转换等外在因素,以提高基于 i2b2 2012 临床文本数据集的命名实体识别(NER)模型的性能,结果表明这些方法可以显著将模型的 F1 得分从原始的 73 - 临床基础建模的不稳定基础:大型语言模型和 EMR 基础建模调查
本文回顾了 80 多个非成像电子医疗记录基础模型并创建了一个分类法以区分它们的结构、训练数据和潜在用例。作者们发现,大多数模型是在小型、局限性临床数据集(例如 MIMIC-III)或广泛的公共生物医学语料库(例如 PubMed)上进行训练的 - 我们是否还需要临床语言模型?
通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、 更高效的专业化临床模型。
- ACL临床文本的原型网络对诊断预测的可解释性
使用基于原型网络和标签注意力机制的 ProtoPatient 方法可准确预测临床文本中的诊断,并为医生提供可解释和有用的结果,定量和定性评估表明该模型优于现有基线模型,医学医生的进一步验证证明了该模型为临床决策支持提供了有价值的解释。
- NEAR: 临床概念命名实体和属性识别
本研究提出了三种结构以实现多标签的命名实体识别,这三种方法是 BiLSTM n-CRF、BiLSTM-CRF-Smax-TF 和 BiLSTM n-CRF-TF。通过评估在 i2b2/VA 2010 和 i2b2 2012 共享任务数据集上 - EMNLP大型语言模型是少样本临床信息提取器
本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下,零和少样本学习从临床文本中提取信息,包括跨度识别、令牌级序列分类和关系提取。通过引入新的 CAS 数据集并进行手动再注释,GPT-3 系统在这些任务上明显优于现有的零和少样本 - 利用外部知识进行非监督的数值推理从临床文本中提取表型
利用 ClinicalBert 和外部知识的无监督方法,能够在临床文本中进行数值推理以提取表型,相比无监督基准测试,综合召回率和 F1 得分的绝对增益分别高达 79%和 71%,并且在监督学习情况下,性能也优于替代方法,综合召回率和 F1 - 使用多目标优化改善抽象临床文本摘要的事实准确性
本文提出了一个基于知识导向多目标优化的框架来提高临床文本的抽象总结的事实准确性,并在患有心力衰竭的患者的临床笔记以及两个公开基准数据集上评估了该框架的性能,其中不同的丢失功能优化导致了实体级事实准确性的提高。
- ACL使用自我监督知识融合从入院记录中预测临床结果
该研究旨在通过临床文本的预测,预防医生忽略潜在风险并帮助医院规划能力。使用语言模型分析预测诊断结果、手术、住院死亡率和住院时间。提出了临床结局预训练来整合多个公共来源的患者结局知识,并提出了一种将 ICD 编码层次结构纳入模型的简单方法,以 - ACL利用门卷积和笔记 - 代码交互进行医学编码分配
本研究提出了一种基于门控卷积神经网络和笔记代码交互的新方法,以自动进行医学代码分配,该方法在现实世界的临床数据集上实验验证其有效性,性能优于现有模型。
- ACL公开可用的临床 BERT 嵌入
本文探讨了基于词汇的上下文嵌入模型在临床领域的应用,发现相对于通用语料库,专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。
- ACLScispaCy:用于生物医学自然语言处理的快速和鲁棒模型
本文描述了一个新的生物医学 / 科学文本处理工具,名为 scispaCy,它大量利用了 spaCy 库,通过两个模型包的性能表明其在多个任务和数据集上的稳健性。
- 利用医学命名实体和多模态学习提高医院死亡率预测
本研究旨在探究如何利用医疗自然语言处理技术,将临床文本与结构化临床数据相结合,建立多模态神经网络模型,实现对重症监护室患者住院死亡风险的预测。研究结果显示,相较于基准模型,本模型的 AUC 值提高了 2%。
- 临床文本自然语言处理的交互工具
该研究介绍了一个原型工具,结合多种可视化方式,帮助终端用户理解临床文本中提取出的信息,修正必要错误,形成反馈循环,支持 NLP 模型的优化。针对该工具进行的临床医生和研究人员的用户研究显示,用户可以快速开始修正 NLP 模型,尽管他们很少或 - 基于语境的递归神经网络
本文介绍了一种名为 Grounded Recurrent Neural Network (GRNN) 的适用于多标签预测的循环神经网络结构,其具有将标签明确绑定到递归隐状态的特定维度的特点,这个过程叫做 “接地”。 该方法特别适用于从文本中