利用机器学习和自然语言处理来审查和分类癌症易感基因相关医学文献
这篇论文介绍了 SimpleGermKG,一种自动构建知识图谱的方法,该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT,提取基因和疾病,并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系,采用了部分 - 整体关系方法将每个实体与其数据源连接,并以图形表示形式进行可视化。最后,讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战,并展示了结果的图形可视化。
Sep, 2023
本研究使用自然语言处理中的实体识别和文本分类的两个主要函数来从生物医学文献中发现与癌症相关的信息,使用机器学习分类器来构建分类模型,并使用结构化查询语言来识别可能导致重要预测的隐藏关系。
May, 2023
本文利用因果发现算法和大型语言模型通过对 705 名乳腺癌患者的基因组信息的剖析,从多个角度研究患者存活状况的因素,表明因果发现算法和语言模型的可靠性,有助于深入挖掘临床应用上的可靠因果关系。
May, 2023
本研究通过乳腺癌表型提取任务,评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明,CancerBERT 模型具有最佳的学习能力和普适性,并且模型的普适性与样本之间的相似度有关。
Mar, 2023
本文介绍了一种新的数据提取和探索系统,可以从癌细胞系的科学文献中提取文本实体之间的深层次语义关系,为现有结构化临床数据提供丰富的语义信息,并自动链接基因组拷贝数变异图与相关实体,以及相关文献证据,从而实现更为快捷深入的文献检索。
Jul, 2023
本研究使用卷积神经网络 (CNN) 模型对 10,340 个来自 33 种不同癌症类型和 731 个正常组织样品进行分类,并在 1D-CNN 模型中确定了 2,090 个癌症标记物,其中包括 GATA3 和 ESR1 等已知标记,并对乳腺癌亚型进行了预测,取得了 88.42% 的平均准确率。
Jun, 2019
本研究提出了一种集成模型,结合了 LSTM、BiLSTM、CNN、GRU 和 GloVe,用于对基因突变进行分类,在 Kaggle 的个性化医学中使用《重定义癌症治疗》数据集。结果与 BERT、Electra、Roberta、XLNet、Distilbert 以及它们的 LSTM 集成进行了比较。我们的模型在准确性、精确度、召回率、F1 分数和均方误差等方面胜过了所有其他模型。令人惊讶的是,它还需要较少的训练时间,从而实现了性能和效率的完美结合。本研究展示了集成模型在基因突变分类等困难任务中的实用性。
Jul, 2023
本文介绍了如何使用机器学习模型解释文本分类的决策过程以及如何生成基于词向量的文档表示方法。通过对两个不同类型的模型进行比较,表明卷积神经网络在可解释性方面的优势,也使得它更具有人类可理解性,并有潜力应用于其他领域。
Dec, 2016