- 利用大型语言模型在临床句子中低资源分类移动功能信息
通过对公开可用的大型语言模型进行评估,本研究探讨了识别临床记录中功能信息存在的准确性,并提出了改进性能的各种策略,结果表明 Flan-T5-xxl 模型在零样本和少样本情况下,通过 kNN 采样选择的单个举例,可达到 0.865 的 F1 - 超越准确性:大规模真实世界临床文本数据的自动化去识别
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
- MuST: 医院再入院预测的多模态时空图卷积网络
该研究提出了一种名为 MuST(多模式时空图转换器)的新型模型,通过使用图卷积网络和时间变换器,能够有效捕捉电子病历和胸部 X 射线照片中的时空依赖关系,并通过预先训练的领域特定变换器提取临床笔记的特征,进一步融合以上两种模态的时空特征。最 - 基于树型对比学习的半结构化自动 ICD 编码研究
通过研究调查临床记录的半结构化性质,我们提出了一种自动算法将其分割为不同的部分。为了解决现有 ICD 编码模型在数据有限性方面的可变性问题,我们引入了对于部分使用基于树编辑距离的软多标签相似度度量的对比预训练方法。此外,我们设计了一个掩码部 - 探索临床笔记表型的替代特征提取流程
通过使用 ScispaCy 从临床记录中提取常见疾病,训练各种监督学习模型来确定其与患者属性的相关性,并与 ClinicalBERT 和基于 LSTM 的方法进行比较,提出一种可作为现有方法的补充的替代方法。
- 临床文本去重实践:高效预训练与改进临床任务
通过利用大规模的真实临床数据集,本研究首先对常见写作习惯和临床相关性导致的冗余文本进行了细粒度的描述,接着证明了去重临床文本可以帮助临床语言模型以更高效的方式编码更少的冗余信息,并且通过基于提示的学习不会对分类任务造成伤害。
- DRG-LLaMA:调整 LLaMA 模型以预测住院患者的诊断相关分组
通过对临床笔记进行 fine-tuned,我们引入了 DRG-LLaMA 这一大型语言模型来改善 DRG 预测在美国住院付款系统中的分配过程,其相对于 ClinicalBERT 和 CAML 表现出了较高的精确度和 AUC,同时该模型在预测 - 基于合成临床记录的公开可分享临床大型语言模型
通过使用公开可获得的案例报告提取的合成大规模临床记录,创建合成大规模临床记录和使用真实临床记录评估的专业临床大语言模型 Asclepius 与其他大型语言模型 GPT-3.5-turbo 和其他开放源替代品进行比较,证明合成临床记录在构建高 - 使用大型语言模型从医疗肿瘤学记录中提取详细的肿瘤学历史和治疗计划
使用两节临床进展笔记为对象,设计了详细的标注方案,并评估了三个最近发布的大型语言模型 (GPT-4、GPT-3.5-turbo 和 FLAN-UL2) 对临床进展笔记中肿瘤学等细节信息的零 - shot 提取能力,结果显示 GPT-4 模型 - 利用有限的上下文长度发挥最大的预测能力:预测能力因临床记录类型和记录部分而异
本论文通过研究 MIMIC-III 数据集中的病历笔记,提出了一个基于自然语言处理模型的框架,通过挑选预测能力高的笔记部分来实现有效的信息提取,并在不同类型的笔记结合时提高了模型的性能。
- 医学术语嵌入的分层预训练
这篇论文介绍了利用自然语言处理和表示学习生成医学术语的嵌入,以更好的预测临床决策和患者轨迹,提出了一个新的医学术语表示模型 HiPrBERT,并使用层次结构数据来训练和提高嵌入效果。
- 评估针对患者个性化电子病历问题的 AI 聊天机器人
本文探讨了使用人工智能聊天机器人,基于临床笔记回答特定患者问题的实用性,评估并比较了多种大型语言模型系统(ChatGPT(3.5 和 4 版本),Google Bard 和 Claude)所生成的答案的准确性和相关性。
- 公平起见:评估医疗记录去识别中的偏差
研究了当前医疗数据中去标识化的方法对于不同人群的名称的错误率和效果差异,并提出了基于机器学习方法和临床背景的去标识化方法改进方案。
- 为临床 ICD 编码建模时间文档序列
本研究提出一种基于层次变压器架构的 ICD 编码方法,使用病人整个住院期间的所有临床笔记进行编码,并结合文本元数据嵌入,如位置,时间和笔记类型等,在使用 MIMIC-III 数据集进行测试时,模型在仅使用出院摘要作为输入时超越了以前的最佳表 - 2022 年 n2c2/UW 社会决定因素健康提取共享任务
本文介绍了 n2c2/UW SDOH 挑战的共享任务、数据、参与团队、性能结果以及未来工作的考虑,并探讨了使用自然语言处理技术和预训练的语言模型提取 SDOH 和临床信息的前景。
- 使用字级别和句级别稀疏注意力的临床笔记死亡率预测模型
本文研究了临床神经预测模型中的不同注意力机制在区分度和校准性方面的表现,特别是将稀疏注意力作为在临床记录中预测住院病死率的替代方法,在公开数据集上表现出了优异的预测性能,并且在确定的相关指令词上更加注意力集中。然而,在句子选择上可能会出现问 - 探索社会健康因素的临床社工笔记主题建模
通过对 0.95 百万份社会工作者记录的词频分析和 LDA 主题建模分析,本文确定了社会卫生风险因素的 11 个主题,包括财务状况、虐待史、社会支持、死亡风险和心理健康等,证明了社会工作者提供了个人社会决定因素上富有独特性和不可获得性的信息 - 无监督的临床笔记片段提取、标记和聚类
本文提出一种无监督的文本信息抽取方法,应用于捷克乳腺癌患者的临床记录中,以提取、分类和聚类具有特定临床特征的文本片段,证明提出方法在捷克样本中为构建更复杂的信息抽取和分析工具提供了实用价值。
- 临床记录中医学编码预测:从人工编码到机器编码
该论文通过自然语言处理和深度学习技术预测医学编码,提高编码准确性并探讨神经网络模型的可解释性。
- 探索长程临床笔记语言建模的最佳间隔
本研究探讨了利用 Longformer 进行长文本的适应性训练从而更好地处理医学领域中的电子病历,实现了 10% 的 F1 值提升。研究表明提高模型对较长临床笔记的处理能力有助于提升其性能,但为达到不同的目标变量的最佳性能,需要不同的截断间