BactInt: 基于领域驱动的迁移学习方法和用于从生物医学文本中提取细菌间相互作用的语料库
我们提出了一个手动注释的语料库,物种物种相互作用,用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系,重点关注肠道微生物群落。该语料库利用 PubTator 对全文文章中的物种进行注释,并评估了不同的命名实体识别物种标记器。我们的第一批结果表明,使用 BERT 及其生物医学变体可以很好地提取物种之间的关系。
Jun, 2023
生物医学文献是一个迅速扩展的科学技术领域,本研究提出了 Fine-tuned DistilBERT 方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过 40% 减小 BERT 模型尺寸和 60% 的速度提升,证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能,以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型,在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练,其结果令人印象深刻,超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。
Apr, 2024
通过 Bayesian 非参数模型及其相关的高效推理算法,本文解决了从时间序列细菌计数数据中学习微生物动态学的关键概念和实际挑战,并将其应用于模拟和实际数据,展示了从有限数据中系统识别与获取新的生物学见解的功能。
May, 2018
本文介绍了一种增强生物医学文本中关系抽取的方法,重点关注化学基因相互作用。利用 BioBERT 模型和多层全连接网络架构,我们的方法使用一种新颖的合并策略,将 ChemProt 和 DrugProt 数据集集成在一起。通过大量实验,我们证明了显著的性能提升,特别是在数据集之间共享的 CPR 组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外,该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。
May, 2024
本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法,例如:朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等,通过实验检测不同方法的适用性和鲁棒性。结果表明,基于 transformers 的模型(如 PubMedBERT)在处理小型和不平衡的数据时表现较好。其中,在平衡数据上,PubMedBERT 模型的 F1 得分最高(0.92)。
Jan, 2022
在本研究中,采用使用深度学习方法和生物医学本体论,例如 Gene Ontology、Human Phenotype Ontology、Human Disease Ontology 和 Chemical Entities of Biological Interest,提高生物医学关系抽取方法,达到了比现有技术更高的精度。
Jan, 2020
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本研究介绍了一种使用多模态线索(如分子结构)帮助模型学习实体(蛋白质)的多组学生物信息的新颖框架,以图形为基础的多模态学习机制利用 GraphBERT 模型编码了文本和分子结构信息,并利用不同模态的基础特征进行端到端的学习。在生物医学领域的蛋白质相互作用任务中,我们的提出的广义方法发现受到了领域特定模态的额外获益。
Jul, 2021
通过研究发现,微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及,并通过专家投票方法将多个工作者的注释合并,生成 BioNLP 领域中完全标注的语料库。
Aug, 2014
本文提出了一种从生物医学文献中提取预定义二元关系类型的新事实的简单而有效的方法,该方法不需要任何训练数据或手工规则,并且已在知识库完成任务中得到验证。
Jul, 2019