构建生物医学物种提及关系提取语料库

ACLJun, 2023

构建生物医学物种提及关系提取语料库

Building a Corpus for Biomedical Relation Extraction of Species Mentions

Oumaima El Khettari, Solen Quiniou, Samuel Chaffron

TL;DR我们提出了一个手动注释的语料库，物种物种相互作用，用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系，重点关注肠道微生物群落。该语料库利用 PubTator 对全文文章中的物种进行注释，并评估了不同的命名实体识别物种标记器。我们的第一批结果表明，使用 BERT 及其生物医学变体可以很好地提取物种之间的关系。

Abstract

We present a manually annotated corpus, species-species interaction, for extracting meaningful binary relations between species, in biomedical texts, at sentence level, with a focus on the →

species-species interaction binary relations gut microbiota pubtator named entity recognition

发现论文，激发创造

BactInt: 基于领域驱动的迁移学习方法和用于从生物医学文本中提取细菌间相互作用的语料库

本文研究了从生物医学文献中自动提取微生物交互作用的方法，使用迁移学习等技术提高了其准确性，并且介绍了可以用于开发微生物相互作用提取方法的第一个公开可用的数据集。

Apr, 2023

在推特上恢复患者旅程：生物医学实体与关系的语料库 (BEAR)

本文提供了一个 14 个实体类别和 20 个关系类别的语料库，可用于从社交媒体数据中探索和建模病人旅程和经验，这些数据包含约 2100 条推文和大约 6000 个实体和 3000 个关系注释。

Apr, 2022

基于大型语言模型的半结构化网络文章的高吞吐量生物医学关系抽取

利用大型语言模型的阅读理解能力和生物医学领域知识，开发了一个高通量的生物医学关系提取系统，将关系提取任务作为一个简单的二分类问题，通过外部语料库和世界知识进行判断，并从可靠医学网站中提取多种类型的生物医学关系。

Dec, 2023

利用预训练语言表示和最少任务特定架构的生物医学关系提取

本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track，我们提供了 Task 3 的解决方案，该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组，其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及，而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等，2018 年)，这是一种最先进的语言模型，它从大型未标记语料库中学习上下文语言表示，并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码，由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重，我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。

Sep, 2019

关系抽取在临床文档理解中的应用

该文介绍了一种文本挖掘框架，利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理，取得优异的实验结果，并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。

Dec, 2021

同时自我关注所有提及以进行全文摘要生物关系提取

提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法，通过聚合提及对以形成实体对表示进行多实例学习，并增加弱标签数据来适应无提及级别注释的设置，实验证明该方法在生物文本信息抽取任务中达到了最先进性能。

Feb, 2018

从生物医学文本中无需提及级别监督即可同时连接实体并提取关系

提出一种无需实体级别监督的实体链接和关系抽取模型，避免了流水线方法中产生的级联错误，并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线，极大地提高了系统的总体召回率。

Dec, 2019

BioRED：一份丰富的生物医学关系提取数据集

本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED，包括新发现和先前已知的信息，旨在评估现有状态下的自动化算法，为更准确、高效和稳健的生物医学关系系统的开发奠定基础。

Apr, 2022

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

BioREx：利用异构数据集提高生物医学关系抽取的准确性

本论文提出了一种数据丰富的方法，将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集，并使用 BioREx 实现了关系提取任务，结果表明，BioREx 在各种关系任务中的表现都优于当前最好的执行方法。

Jun, 2023