- FALCON: 基于 ALC 本体的神经语义蕴含模型
使用模糊逻辑算子生成任意 ALC 本体的模型结构并使用多个模型结构计算语义蕴涵,FALCON 可以实现对 ALC 本体的近似语义蕴涵,从而赋予神经网络世界模型和推理能力,提升生物医学领域中的机器学习。
- EBOCA: 生物医学概念关联本体证据
本文提出 EBOCA 本体论,旨在描述生物医学领域的概念和它们之间的关联,以及支持这些关联的证据。该本体论已经成功评估,并使用来自 DISNET 的测试数据和自动协会提取从文本转换为知识图表,以用于真实场景的评估。
- BioTABQA: 医学表格问答的指令学习
本文在生物医学领域维度构建了一个表格问答数据集 BioTABQA,包含 22 个模板和上下文中的信息。通过该数据集,本文提出了一种基于指导学习的方法,在多个评估方式下,该方法比单一和多任务基线模型表现提高约 23% 和 6%。最重要的是,在 - COLINGMedDistant19:面向广泛覆盖的医学关系抽取精准基准的研究
本研究针对生物医学领域中关系抽取的挑战,提出利用知识图谱关系对原始文本进行自动标注,以克服标注数据缺乏的问题,并通过构建更为准确的基准集 “MedDistant19” 来解决现有基准集存在的一系列问题,并验证了其在领域中具有普遍适用性。
- 生物医学事实型问题回答的数据增强
本文研究七种数据扩增方法在事实型问题回答中的作用,着重于生物医学领域以及数据难以获得的情况。作者从 BioASQ 挑战赛中获取数据,然后通过人工智能技术和其他方法进行扩增。实验证明,即使在使用大型预训练模型时,数据扩增也会带来非常显著的性能 - BioBART:一种医学生成语言模型的预训练和评估
本研究介绍了一种 BioBART 生成语言模型,适应于生物医学领域,用于对话、摘要、实体链接和命名实体识别等各种自然语言生成任务,预先培训在 PubMed 摘要上的 BioBART 比 BART 性能更出色,并在几个任务上设定了强基线。预处 - BERT WEAVER: 采用加权平均实现基于 Transformer 的模型的生命周期学习
提出了一种称为 WEAVER 的简单且高效的后处理方法,该方法将旧知识融入新模型中,从而减少灾难性遗忘,并且在序列方式下,应用 WEAVER 导致与一次性对所有数据进行联合训练相似的单词嵌入分布,同时具有更高的计算效率。
- Transformer 与生物医学背景知识的表示
我们研究了基于 transformer 模型(如 BioBERT 和 BioMegatron)在公开的生物医学语料库的基础上如何适应生物医学领域,以及它们编码和表征生物知识的潜力和在癌症精准医学中的应用 - 即,解释基因组变异的临床意义。通 - AAAI使用神经检索器提高生物医学信息检索
本研究旨在提高神经检索器在生物医学领域中的表现,提出了模板问题生成方法、两个新的预训练任务以及多维语境表示(Poly-DPR)技术,并通过 BioASQ 挑战实验证明该方法在小语料库方面超越目前的神经方法和 BM25。
- 生物医学关系提取的抽象化多实例学习 (AMIL)
研究提出了用抽象化的多实例学习(AMIL)来改善远程监督下生物医学关系抽取中的训练噪声及数据分布问题。同时,提出了一种新的关系嵌入结构,在生物医学关系提取中进一步提高模型的性能。
- ACL重构 - 探索法:一种对预训练语言模型进行生物医学知识探测的对比性方法
本研究采用对比探针法,探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制,并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法,其中 Contrastive-Probe 方法的性能表现优于其他方法,为此领 - 生物医学领域的预训练语言模型:一项系统调查
本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用,提出了现有生物医学 PLMs 的分类及其在下游任务中的应用,讨论了其限制与未来发展趋势。
- ACL基于 Fine-Tuning Transformers 的生物医学数据生成文本
本研究在生物医学领域应用神经模型于 D2T 生成,并提出新数据集 BioLeaflets 来评估 D2T 生成模型。结果表明 fine-tuned Transformers 可在生物医学领域生成逼真的多句文本,但仍存在重要限制。
- MoCL: 基于知识感知对比学习的分子图数据驱动的分子指纹
本文研究了图对比学习在生物医药领域中的应用,提出了一种利用本地和全局领域知识来辅助表示学习的框架 MoCL。使用双重对比目标学习整个模型。在不同的分子数据集上进行了评估,结果表明 MoCL 达到了最先进的性能水平。
- 使用知识优化生物医学预训练语言模型
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
- EMNLPMS2: 医学研究的多文档摘要
本研究针对医学干预方案的评估,提供了一个达到自动评估医学文献、整合多个研究结果的新数据集:MS^2。并基于 BART 模型,通过自由文本和结构化形式,提出了用于评估自动生成摘要质量的新指标。
- CVPRDARCNN:领域自适应基于区域的卷积神经网络,用于生物医学图像的无监督实例分割
对于医学领域中的复杂数据,提出了一种利用计算机视觉数据进行无监督实例分割的方法,该方法使用了 Domain Adaptive Region-based Convolutional Neural Network (DARCNN) 来缩小不同视 - ACLEventPlus: 一个时间事件理解管线
EventPlus 是第一个全面的时间事件理解流水线,可帮助用户快速获取任何用户提供的文档中有关事件及其时间信息的注释。此外,我们展示了 EventPlus 可以轻松适应其他领域(例如,生物医学领域),并公开了 EventPlus 以促进基 - 使用 VERT5ERINI 进行科学声明验证
本文提出了 VERT5ERINI,它利用 T5 进行抽象检索、句子选择和标签预测,以验证生物医学领域中的科学主张,并在 SCIFACT 数据集上进行了评估,在每个步骤中均优于强基线,并展示了 VERT5ERINI 对 COVID-19 主张 - ACL医学实体表示的自校准预训练
本研究提出了一种自我对齐的预训练模型 SapBERT,以处理医学名词实体链接(MEL)等实体级任务,利用 UMLS 等生物医学本体学的庞大集合,实现了新的最优结果,并证明其相对于 BioBERT 和 PubMedBERT 等先前的特定领域的