BioLORD:从定义中学习本体表示(用于生物医学概念及其文本描述)
我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力,通过利用 UMLS 知识图谱和先进的大型语言模型,我们提出了一种新的先进方法,通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段,获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务,我们证明了与以往先进技术相比的一致且显著的性能改进(例如,在 MedSTS 上提高了 2 点,在 MedNLI-S 上提高了 2.5 点,在 EHR-Rel-B 上提高了 6.1 点)。除了我们的新型英文生物医学模型外,我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益,开启了生物医学语义表示学习在多种语言中发展的新途径,为全球的生物信息学研究人员提供了宝贵的工具。因此,我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。
Nov, 2023
本研究利用基于定义的语义模型来检测临床术语中的习语和半习语多词表达,开发了一种有效的工具来评估生物医学习语多词表达的习语性,结果表明 BioLORD 模型具有较强的识别习语多词表达的能力,有助于本体译者聚焦于更具挑战性的 MWEs。
May, 2023
通过注入本体知识来改进嵌入式大语言模型(embedding-LLM),本研究利用广泛的本体使用和基于对照学习框架,通过医学疾病本体的生物医学文档,展示了提高嵌入式 LLM 在描述疾病领域中的相似性评估能力的实验结果。
May, 2024
本文研究如何将预训练语言模型 BERT 改进适用于中文生物医学文本,并提出了一种新的概念化表示学习方法。我们还发布了一个新的中文生物医学语言理解评估基准( extbf {ChineseBLUE}),实验结果表明我们的方法可以获得显著的收益。
Aug, 2020
该研究旨在探讨基于大型模型的上下文学习能力,应用检索与排名框架的方法,以实现生物医学概念链接,并在 BC5CDR 疾病实体标准化和化学实体标准化方面取得了 90% 和 94.7% 的准确率,相对于监督学习方法表现出竞争力, F1 分数有 20 个绝对点的显著提高,深入评估了在生物医学领域使用大型语言模型的优点和潜在局限性。
Jul, 2023
Language-mediated, Object-centric Representation Learning 是一种学习物体中心场景表示的新范式,通过从语言输入中获取物体中心概念来促进物体中心表示的学习,并能结合无监督的物体探索算法,提高语言帮助下的无监督物体探索方法的性能,并辅助下游任务,如指称理解。
Dec, 2020
本文介绍了完全由机器学习算法生成的第一个大规模公开生物医学知识图谱 Biomedical Informatics Ontology System(BIOS),包括生物医学术语的整理、同义词的计算识别、概念节点的聚合、语义类型分类、关系识别和医学机器翻译。结果提示,基于机器学习的 BioMedKG 开发是传统专家编纂的可行替代方案。
Mar, 2022
在本研究中,采用使用深度学习方法和生物医学本体论,例如 Gene Ontology、Human Phenotype Ontology、Human Disease Ontology 和 Chemical Entities of Biological Interest,提高生物医学关系抽取方法,达到了比现有技术更高的精度。
Jan, 2020
本文介绍了一种基于深度学习的方法来构建大型临床本体的语义搜索系统,该方法使用 Triplet-BERT 模型和直接从本体生成训练数据的方法,并在五个真实基准数据集上进行了评估,在自由文本到概念和概念到概念的搜索任务中取得了高结果。这项方法优于所有基线方法。
Jan, 2022