集成 SVM、CNN 和 RNN 模型的化学蛋白质关系提取
本文介绍了一种增强生物医学文本中关系抽取的方法,重点关注化学基因相互作用。利用 BioBERT 模型和多层全连接网络架构,我们的方法使用一种新颖的合并策略,将 ChemProt 和 DrugProt 数据集集成在一起。通过大量实验,我们证明了显著的性能提升,特别是在数据集之间共享的 CPR 组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外,该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。
May, 2024
本文介绍了一种基于卷积神经网络的系统,用于提取科学文章中的关系,其基于人工神经网络进行关系提取的方法近期得到了研究。该模型在 SemEval-2017 任务 10(ScienceIE)中的科学文章关系提取(子任务 C)中排名第一。
Apr, 2017
本文提出了一种基于神经网络、BERT 和高斯概率分布的方法,以改进在生物医学文献中提取化学物质 - 蛋白质相互作用的性能,该方法能够充分利用局部结构和外部医学知识,并在实验中取得了比其他最先进方法更好的结果。
Nov, 2019
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定化学反应相关的文本描述,然后将其与反应的分子表示进行对齐。通过在预测器训练中加入辅助的掩码语言模型目标,增强了这种对齐。我们通过两个化学任务进行了实证验证:反应条件推荐和一步逆合成。通过利用文本检索,TextReact 显著优于仅基于分子数据训练的最先进的化学信息模型。
Dec, 2023
本文旨在探讨在医疗临床记事本上提取关系的问题。作者提出使用卷积神经网络自动学习特征,减少对人工特征工程的依赖,并针对 i2b2-2010 临床关系提取挑战数据集进行了实证研究。结果表明,卷积神经网络可以是在临床文本中提取关系的良好模型,而且不需要专家们定义的高质量特征。
Jun, 2016
提出一种基于 DNN 的方法,结合了不确定性信息和校准技术来提取化学物质 - 蛋白质之间的相互作用。该方法能够估算数据不确定性并提高模型可靠性,同时改善性能并保持高校准能力。
Nov, 2020
通过 EnzChemRED 数据集,利用大型语言模型等自然语言处理方法可以显著提高识别文本中的蛋白质和化学品提及以及提取它们参与的化学转化的能力,该数据集位于 PubMed 摘要中,旨在支持酶的修饰。
Apr, 2024
本文提出了基于卷积神经网络和循环神经网络集成的关系分类和抽取系统,在 SemEval 2018 任务 7 的 4 个子任务中中有 3 个排名第一。我们提供了设计选择背后最相关特征的详细解释和论据,并分析了它们的重要性。
Apr, 2018
本研究通过使用基于跨度的管道方法,在 ChemProt 数据集上获得了新的最先进的 E2ERE(端到端关系提取)性能,结果比先前的最佳结果提高了 $> 4%$,结果表明简单的细粒度标记化方案有助于跨度方法在 E2ERE 中表现优异,特别是对于处理复杂命名实体。
Apr, 2023
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。
Dec, 2021