一个人类表型 - 基因关系银标准文献库
介绍了 ChemDisGene,这是一个用于训练和评估多类别多标签生物医学关系抽取模型的新数据集,包含 80k 生物医学研究摘要的标注有化合物、疾病和基因提及的部分,其中某些部分被人工专家标注有这些实体之间的 18 种生物医学关系。同时,针对训练集,使用 CTD 数据库进行远程标注,准确率达到约 78%。与类似的现有数据集相比,我们的数据集规模更大、更干净,并包括将提及链接到其实体的注释。还提供了三个基线深度学习网络关系抽取模型在我们的新数据集上进行训练和评估。
Apr, 2022
这篇论文介绍了 SimpleGermKG,一种自动构建知识图谱的方法,该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT,提取基因和疾病,并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系,采用了部分 - 整体关系方法将每个实体与其数据源连接,并以图形表示形式进行可视化。最后,讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战,并展示了结果的图形可视化。
Sep, 2023
我们提出了一个手动注释的语料库,物种物种相互作用,用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系,重点关注肠道微生物群落。该语料库利用 PubTator 对全文文章中的物种进行注释,并评估了不同的命名实体识别物种标记器。我们的第一批结果表明,使用 BERT 及其生物医学变体可以很好地提取物种之间的关系。
Jun, 2023
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
Apr, 2022
在本研究中,采用使用深度学习方法和生物医学本体论,例如 Gene Ontology、Human Phenotype Ontology、Human Disease Ontology 和 Chemical Entities of Biological Interest,提高生物医学关系抽取方法,达到了比现有技术更高的精度。
Jan, 2020
本文提供了一个 14 个实体类别和 20 个关系类别的语料库,可用于从社交媒体数据中探索和建模病人旅程和经验,这些数据包含约 2100 条推文和大约 6000 个实体和 3000 个关系注释。
Apr, 2022
本文介绍了一种新的 BioBERT-GRU 方法,用于识别单核苷酸多态性(SNP)和特征之间的关联,该方法在 SNPPhenA 数据集上的评估结果表明,相对于以前的机器学习和深度学习方法,该方法表现更好,具有 0.883 的精确度、0.882 的召回率和 0.881 的 F1 分数。
Aug, 2023
本文提供了一个包含 445 篇人工和计算机生成的文档的语料库,其中包含约 27,000 个从句,注释了语义从句类型和相关关系,以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语,包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据,我们展示了该语料库对于对生成文本进行详细的话语分析的有用性:较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。
Nov, 2021
本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track,我们提供了 Task 3 的解决方案,该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组,其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及,而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等,2018 年),这是一种最先进的语言模型,它从大型未标记语料库中学习上下文语言表示,并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码,由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重,我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。
Sep, 2019