一个人类表型 - 基因关系银标准文献库

ACLMar, 2019

一个人类表型 - 基因关系银标准文献库

A Silver Standard Corpus of Human Phenotype-Gene Relations

Diana Sousa, Andre Lamurias, Francisco M. Couto

TL;DR本篇论文介绍了 Phenotype-Gene Relations（PGR）语料库，这是一个包含 1712 篇概要、5676 个人类表型注释、13835 个基因注释和 4283 个关系注释的银标准语料库，使用命名实体识别工具生成，并获得 87.01% 的精度。该语料库可用于关系提取，并与两个深度学习工具产生了良好的结果。

Abstract

Human phenotype-gene relations are fundamental to fully understand the origin of some phenotypic abnormalities and their associated diseases. Biomedical literature is the most comprehensive source of these relations, however, we need →

phenotype-gene relations relation extraction annotated corpus named-entity recognition deep learning

发现论文，激发创造

用于提取化学物质、疾病和基因之间生物医学关系的远程监督语料库

介绍了 ChemDisGene，这是一个用于训练和评估多类别多标签生物医学关系抽取模型的新数据集，包含 80k 生物医学研究摘要的标注有化合物、疾病和基因提及的部分，其中某些部分被人工专家标注有这些实体之间的 18 种生物医学关系。同时，针对训练集，使用 CTD 数据库进行远程标注，准确率达到约 78％。与类似的现有数据集相比，我们的数据集规模更大、更干净，并包括将提及链接到其实体的注释。还提供了三个基线深度学习网络关系抽取模型在我们的新数据集上进行训练和评估。

Apr, 2022

应用 BioBERT 从生物医学文献中提取基因与疾病的胚系关联以构建知识图谱

这篇论文介绍了 SimpleGermKG，一种自动构建知识图谱的方法，该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT，提取基因和疾病，并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系，采用了部分 - 整体关系方法将每个实体与其数据源连接，并以图形表示形式进行可视化。最后，讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战，并展示了结果的图形可视化。

Sep, 2023

构建生物医学物种提及关系提取语料库

我们提出了一个手动注释的语料库，物种物种相互作用，用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系，重点关注肠道微生物群落。该语料库利用 PubTator 对全文文章中的物种进行注释，并评估了不同的命名实体识别物种标记器。我们的第一批结果表明，使用 BERT 及其生物医学变体可以很好地提取物种之间的关系。

Jun, 2023

Taec：用于小麦育种文献中特征和表型提取及实体链接的手动标注文本数据集

小麦育种中的基因型 - 表型关系研究及命名实体识别的文献挖掘方法。

Jan, 2024

BioRED：一份丰富的生物医学关系提取数据集

本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED，包括新发现和先前已知的信息，旨在评估现有状态下的自动化算法，为更准确、高效和稳健的生物医学关系系统的开发奠定基础。

Apr, 2022

BiOnt：基于多个生物医学本体的深度学习关系提取

在本研究中，采用使用深度学习方法和生物医学本体论，例如 Gene Ontology、Human Phenotype Ontology、Human Disease Ontology 和 Chemical Entities of Biological Interest，提高生物医学关系抽取方法，达到了比现有技术更高的精度。

Jan, 2020

在推特上恢复患者旅程：生物医学实体与关系的语料库 (BEAR)

本文提供了一个 14 个实体类别和 20 个关系类别的语料库，可用于从社交媒体数据中探索和建模病人旅程和经验，这些数据包含约 2100 条推文和大约 6000 个实体和 3000 个关系注释。

Apr, 2022

基于 BioBERT 的生物医学文献中 SNP 特征关联提取

本文介绍了一种新的 BioBERT-GRU 方法，用于识别单核苷酸多态性（SNP）和特征之间的关联，该方法在 SNPPhenA 数据集上的评估结果表明，相对于以前的机器学习和深度学习方法，该方法表现更好，具有 0.883 的精确度、0.882 的召回率和 0.881 的 F1 分数。

Aug, 2023

人类和计算机话语结构的新型语料库

本文提供了一个包含 445 篇人工和计算机生成的文档的语料库，其中包含约 27,000 个从句，注释了语义从句类型和相关关系，以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语，包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据，我们展示了该语料库对于对生成文本进行详细的话语分析的有用性：较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。

Nov, 2021

利用预训练语言表示和最少任务特定架构的生物医学关系提取

本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track，我们提供了 Task 3 的解决方案，该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组，其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及，而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等，2018 年)，这是一种最先进的语言模型，它从大型未标记语料库中学习上下文语言表示，并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码，由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重，我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。

Sep, 2019