BactInt: 基于领域驱动的迁移学习方法和用于从生物医学文本中提取细菌间相互作用的语料库

Apr, 2023

BactInt: 基于领域驱动的迁移学习方法和用于从生物医学文本中提取细菌间相互作用的语料库

BactInt: A domain driven transfer learning approach and a corpus for extracting inter-bacterial interactions from biomedical text

PDF

Krishanu Das Baksi, Vatsala Pokhrel, Kuntal Kumar Bhusan, Sharmila Mande

TL;DR本文研究了从生物医学文献中自动提取微生物交互作用的方法，使用迁移学习等技术提高了其准确性，并且介绍了可以用于开发微生物相互作用提取方法的第一个公开可用的数据集。

Abstract

The community of different types of microbes present in a biological niche plays a very important role in functioning of the system. The crosstalk or interactions among the different →

microbes crosstalk biomedical literature automated extraction transfer learning

发现论文，激发创造

构建生物医学物种提及关系提取语料库

我们提出了一个手动注释的语料库，物种物种相互作用，用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系，重点关注肠道微生物群落。该语料库利用 PubTator 对全文文章中的物种进行注释，并评估了不同的命名实体识别物种标记器。我们的第一批结果表明，使用 BERT 及其生物医学变体可以很好地提取物种之间的关系。

Jun, 2023

生物医学文献中实验方法的自动文本挖掘

生物医学文献是一个迅速扩展的科学技术领域，本研究提出了 Fine-tuned DistilBERT 方法，这是一种专门针对生物医学文本的预训练生成分类语言模型，通过 40% 减小 BERT 模型尺寸和 60% 的速度提升，证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能，以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型，在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练，其结果令人印象深刻，超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。

Apr, 2024

微生物组动态的稳健可扩展模型

通过 Bayesian 非参数模型及其相关的高效推理算法，本文解决了从时间序列细菌计数数据中学习微生物动态学的关键概念和实际挑战，并将其应用于模拟和实际数据，展示了从有限数据中系统识别与获取新的生物学见解的功能。

May, 2018

基于 BioBERT 的深度学习和融合的 ChemProt-DrugProt 方法用于增强的生物医学关系抽取

本文介绍了一种增强生物医学文本中关系抽取的方法，重点关注化学基因相互作用。利用 BioBERT 模型和多层全连接网络架构，我们的方法使用一种新颖的合并策略，将 ChemProt 和 DrugProt 数据集集成在一起。通过大量实验，我们证明了显著的性能提升，特别是在数据集之间共享的 CPR 组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外，该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。

May, 2024

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

BiOnt：基于多个生物医学本体的深度学习关系提取

在本研究中，采用使用深度学习方法和生物医学本体论，例如 Gene Ontology、Human Phenotype Ontology、Human Disease Ontology 和 Chemical Entities of Biological Interest，提高生物医学关系抽取方法，达到了比现有技术更高的精度。

Jan, 2020

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

多模态基于图的转换器框架用于生物医学关系抽取

本研究介绍了一种使用多模态线索（如分子结构）帮助模型学习实体（蛋白质）的多组学生物信息的新颖框架，以图形为基础的多模态学习机制利用 GraphBERT 模型编码了文本和分子结构信息，并利用不同模态的基础特征进行端到端的学习。在生物医学领域的蛋白质相互作用任务中，我们的提出的广义方法发现受到了领域特定模态的额外获益。

Jul, 2021

PubMed 概要中疾病提及标注的微任务众包

通过研究发现，微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及，并通过专家投票方法将多个工作者的注释合并，生成 BioNLP 领域中完全标注的语料库。

Aug, 2014

利用可解释模式的快速标注从零开始构建大规模生物医学知识库

本文提出了一种从生物医学文献中提取预定义二元关系类型的新事实的简单而有效的方法，该方法不需要任何训练数据或手工规则，并且已在知识库完成任务中得到验证。

Jul, 2019