Taec：用于小麦育种文献中特征和表型提取及实体链接的手动标注文本数据集

Jan, 2024

Taec：用于小麦育种文献中特征和表型提取及实体链接的手动标注文本数据集

Taec: a Manually annotated text dataset for trait and phenotype extraction and entity linking in wheat breeding literature

PDF

Claire Nédellec, Clara Sauvion, Robert Bossy, Mariya Borovikova, Louise Deléger

TL;DR小麦育种中的基因型 - 表型关系研究及命名实体识别的文献挖掘方法。

Abstract

Wheat varieties show a large diversity of traits and phenotypes. Linking them to genetic variability is essential for shorter and more efficient wheat breeding programs. Newly desirable wheat variety traits include disease resistance to reduce pesticide use, adaptation to climate change, resistance to heat and drought stresses, or low gluten content of grain

wheat breeding genotype-phenotype relationship scientific literature text mining methods named entity recognition

发现论文，激发创造

一个人类表型 - 基因关系银标准文献库

本篇论文介绍了 Phenotype-Gene Relations（PGR）语料库，这是一个包含 1712 篇概要、5676 个人类表型注释、13835 个基因注释和 4283 个关系注释的银标准语料库，使用命名实体识别工具生成，并获得 87.01% 的精度。该语料库可用于关系提取，并与两个深度学习工具产生了良好的结果。

Mar, 2019

林肯标注的时空草莓数据集 (LAST-Straw)

自动表型分类技术可提供植物特征的定量度量，但开发者所能使用的验证数据集受限。本文提出了一个 3D 点云数据集，包含两个种类的草莓植物，共计 84 个点云。我们关注对这些工具的最终使用，即提取生物学相关的表型，并在数据集上演示了表型分类流程，其中包括分割、骨架化和跟踪等步骤，详细说明每个阶段如何促进不同表型的提取或数据的洞察。我们特别强调在验证表型时，重点放在从流程的每个阶段获取的表示中提取的表型，而不仅仅是评估表示本身。因此，我们在可能的情况下提供了每个步骤提取的表型的 extit {in silico} 基准，并介绍了骨架化及其提取的长度特征的定量评估方法。该数据集为农业 / 园艺领域的下一代表型分类工具的开发提供了免费的空间 - 时间数据，增加了可用于该领域研究的植物品种数量，并为新的表型分类方法提供了真实比较的基础。

Mar, 2024

BonnBeetClouds3D：一个基于点云的糖菜植物田间器官级表型数据集

农业生产在未来几十年面临严峻挑战，包括气候变化和可持续性需求，通过机器人进行无化学除草的领域管理、无人机监测农作物以及培育新型更具适应性的作物品种有助于应对这些挑战。本文提出了自动化精细的器官级几何分析用于精准表型分析的问题。通过使用高分辨率无人机图像获取的新数据集，我们计算出重叠多视角的点云，并为植物、叶片和重要特征点（尖端和基部）提供详细准确的点级标签。此外，我们还提供了德国联邦植物品种办公室专家对真实植物进行的表型特征测量，以便不仅在分割和关键点检测上评估新方法，还可直接评估下游任务。提供的带标签点云可以进行细粒度植物分析，并支持自动表型分析方法的进一步发展，同时也为表面重建、点云补全和点云的语义解释提供了更多研究可能性。

Dec, 2023

基于本体和弱监督的临床笔记罕见病识别

本文提出了一个基于本体和弱监督的方法，使用最近的 BERT 上下文表示进行文本表型处理，该方法可用于从临床笔记中识别出以往难以识别的罕见疾病的患者角色，无须领域专家的注释数据，可提高不少于 30% 至 50% 的精确度。

May, 2022

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于 BERT 模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

生物质高粱中基因型与表型相互作用的分类和可视化

本文引入了一种简单方法来理解单核苷酸多态性（SNP）或相关 SNP 组，以及它们控制的表型之间的关系。该管道包括训练深度卷积神经网络（CNN）来区分具有参考和各种 SNP 的替代版本的植物图像，然后使用可视化方法来突出显示分类网络的关键。我们展示了深度 CNN 在执行分类任务方面的能力，并展示了这些可视化对 TERRA-REF 门架捕获的生物量高粱的 RGB 图像的效用。我们专注于几个具有已知表型表达的遗传标记，并讨论使用这种方法揭示基因型 x 表型关系的可能性。

Aug, 2021

从组织病理学图像预测分子表型：乳腺癌中一项转录组范围的表达形态分析

该研究使用基因特定模型和卷积神经网络从组织形态结构预测肿瘤基因表达及其空间分布，并验证了该方法在乳腺癌中的可行性，为描述肿瘤内异质性提供了可扩展性的方法。

Sep, 2020

基于数据驱动的癌细胞系分子分析信息提取和丰富化

本文介绍了一种新的数据提取和探索系统，可以从癌细胞系的科学文献中提取文本实体之间的深层次语义关系，为现有结构化临床数据提供丰富的语义信息，并自动链接基因组拷贝数变异图与相关实体，以及相关文献证据，从而实现更为快捷深入的文献检索。

Jul, 2023

利用外部知识进行非监督的数值推理从临床文本中提取表型

利用 ClinicalBert 和外部知识的无监督方法，能够在临床文本中进行数值推理以提取表型，相比无监督基准测试，综合召回率和 F1 得分的绝对增益分别高达 79％和 71％，并且在监督学习情况下，性能也优于替代方法，综合召回率和 F1 得分的绝对增益分别高达 70％和 44％。

Apr, 2022

TasselNet: 通过局部计数回归网络在野外计数玉米花穗

本研究首次使用计算机视觉技术在自然环境下解决玉米花穗计数问题。

Jul, 2017