KenMeSH: 知识增强型生物医学文本标注系统

Mar, 2022

KenMeSH: 知识增强型生物医学文本标注系统

KenMeSH: Knowledge-enhanced End-to-end Biomedical Text Labelling

Xindi Wang, Robert E. Mercer, Frank Rudzicz

TL;DR提出了一种名为KenMeSH的模型，该模型结合新的文本特征和动态知识增强掩码注意力，将文档特征与MeSH标签层次结构和期刊相关特征相结合以索引MeSH术语，实验结果表明，该方法在多项指标上实现了最先进的性能。

Abstract

Currently, medical subject headings (mesh) are manually assigned to every biomedical article published and subsequently recorded in the pubmed da

发现论文，激发创造

基于注意力神经树解码的结构化多标签生物医学文本标记

本文提出了一种基于序列到序列学习的模型，用于将非结构化文本与本体树中的任意数量术语进行标记，并在自动分配MeSH术语给生物医学摘要的重要任务上，优于现有方法。

Oct, 2018

ML-Net：基于深度神经网络的生物医学文本多标签分类

ML-Net是一个新型的深度学习框架，用于多标签分类生物医学文本，它通过组合标签预测网络和自动标签计数预测机制来在输出标签时利用每个标签的预测置信度和目标文档中的上下文信息，无需人工特征工程，具有高效、可扩展等特点。

Nov, 2018

利用人工数据构建用于低资源生物医学文本标注微调的模型，并在PICO注释中应用

本研究提出了一种方法解决生物医学标记系统中标记实例匮乏的问题，该方法使用预训练编码器为任务提供文本表示，并通过使用标签文本作为输入来制造多个人工标记实例。实验结果表明，这种方法在PICO注释任务上实现了最新的最佳性能。

Oct, 2019

医学文档理解的分层BERT模型

提出了一种名为 MDBERT 的新模型，采用自下而上的分层架构，能够对长且具有多层语义的医学文件进行编码，并在多个 NLU 任务中得到有效应用。

Mar, 2022

MeSHup: 生物医学全文文献索引语料库

发布了一个大规模的带注释 MeSH 索引语料库，其中包含 1342667 篇文献；我们训练了一个综合文档特征和其关联标签的端到端模型，并报道了新的基线。

Apr, 2022

基于弱监督深度学习的生物医学文献大规模细粒度语义索引

本研究提出了一种基于深度学习的自动化主题注解细化方法，通过在文章摘要中的概念出现来进行弱监督，发现概念出现是自动化主题注解细化的强有力依据，还可以与基于字典的启发式算法相结合以进一步提高准确率。

Jan, 2023

自动检测临床文件的布局以提高下游自然语言处理的性能

通过设计新算法提高PDF文档的临床内容分析性能，包括文本分类和信息抽取等多个步骤，并在使用医学样例数据进行检验后，成功在临床使用案例中提高了医学概念的信息抽取效率。

May, 2023

DKEC: 领域知识增强的电子健康记录多标签分类

通过融合领域知识与文本特征，DKEC算法以标签关注机制为基础，在医学诊断预测领域取得卓越表现，尤其对于少样本类别具有显著优势，并有助于小型语言模型取得与大型语言模型相当的性能。

Oct, 2023

LLMs加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

使用标签自编码器改进大规模k近邻文本分类

本研究提出了一种多标签懒惰学习方法，以解决在存在高互相关联的复杂结构标签词汇的大型文档集合中的自动语义索引问题。该方法是传统k最近邻算法的演化，它使用经过训练的大型自编码器将大标签空间映射到较小的潜空间，并从该潜空间重新生成预测的标签。我们在MEDLINE生物医学文档集的大部分中使用医学主题词（MeSH）词库作为受控词汇对我们的提案进行了评估，实验中我们提出并评估了多种文档表示方法和不同的标签自编码器配置。

Feb, 2024