构建生物医学物种提及关系提取语料库
本文研究了从生物医学文献中自动提取微生物交互作用的方法,使用迁移学习等技术提高了其准确性,并且介绍了可以用于开发微生物相互作用提取方法的第一个公开可用的数据集。
Apr, 2023
本文提供了一个 14 个实体类别和 20 个关系类别的语料库,可用于从社交媒体数据中探索和建模病人旅程和经验,这些数据包含约 2100 条推文和大约 6000 个实体和 3000 个关系注释。
Apr, 2022
利用大型语言模型的阅读理解能力和生物医学领域知识,开发了一个高通量的生物医学关系提取系统,将关系提取任务作为一个简单的二分类问题,通过外部语料库和世界知识进行判断,并从可靠医学网站中提取多种类型的生物医学关系。
Dec, 2023
本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track,我们提供了 Task 3 的解决方案,该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组,其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及,而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等,2018 年),这是一种最先进的语言模型,它从大型未标记语料库中学习上下文语言表示,并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码,由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重,我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。
Sep, 2019
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。
Dec, 2021
提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法,通过聚合提及对以形成实体对表示进行多实例学习,并增加弱标签数据来适应无提及级别注释的设置,实验证明该方法在生物文本信息抽取任务中达到了最先进性能。
Feb, 2018
提出一种无需实体级别监督的实体链接和关系抽取模型,避免了流水线方法中产生的级联错误,并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线,极大地提高了系统的总体召回率。
Dec, 2019
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
Apr, 2022
本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法,例如:朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等,通过实验检测不同方法的适用性和鲁棒性。结果表明,基于 transformers 的模型(如 PubMedBERT)在处理小型和不平衡的数据时表现较好。其中,在平衡数据上,PubMedBERT 模型的 F1 得分最高(0.92)。
Jan, 2022
本论文提出了一种数据丰富的方法,将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集,并使用 BioREx 实现了关系提取任务,结果表明,BioREx 在各种关系任务中的表现都优于当前最好的执行方法。
Jun, 2023