利用机器学习和自然语言处理来审查和分类癌症易感基因相关医学文献

Apr, 2019

利用机器学习和自然语言处理来审查和分类癌症易感基因相关医学文献

Using Machine Learning and Natural Language Processing to Review and Classify the Medical Literature on Cancer Susceptibility Genes

PDF

Yujia Bao, Zhengyi Deng, Yan Wang, Heeyoon Kim, Victor Diego Armengol...

TL;DR使用支持向量机和卷积神经网络两种机器学习模型，对文献进行分类并成功地实现对遗传突变与癌症风险及种群遗传变异的相关性进行预测，并提供新的临床决策支持工具。

Abstract

PURPOSE: The medical literature relevant to germline genetics is growing exponentially. Clinicians need tools monitoring and prioritizing the literature to understand the clinical implications of the pathogenic genetic variants. We developed and evaluated two →

germline genetics machine learning support vector machine convolutional neural network cancer risk

发现论文，激发创造

应用 BioBERT 从生物医学文献中提取基因与疾病的胚系关联以构建知识图谱

这篇论文介绍了 SimpleGermKG，一种自动构建知识图谱的方法，该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT，提取基因和疾病，并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系，采用了部分 - 整体关系方法将每个实体与其数据源连接，并以图形表示形式进行可视化。最后，讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战，并展示了结果的图形可视化。

Sep, 2023

癌症实体关联和分类的机器学习方法

本研究使用自然语言处理中的实体识别和文本分类的两个主要函数来从生物医学文献中发现与癌症相关的信息，使用机器学习分类器来构建分类模型，并使用结构化查询语言来识别可能导致重要预测的隐藏关系。

May, 2023

了解乳腺癌生存：使用因果关系和语言模型分析多组学数据

本文利用因果发现算法和大型语言模型通过对 705 名乳腺癌患者的基因组信息的剖析，从多个角度研究患者存活状况的因素，表明因果发现算法和语言模型的可靠性，有助于深入挖掘临床应用上的可靠因果关系。

May, 2023

电子病历上乳腺癌表型 NLP 算法跨院评估

本研究通过乳腺癌表型提取任务，评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明，CancerBERT 模型具有最佳的学习能力和普适性，并且模型的普适性与样本之间的相似度有关。

Mar, 2023

学习基因表达以预测癌症临床结果

该研究利用神经网络学习基因组表示，以预测癌症患者的生存情况，并证明该方法相较现有的生存分析方法具有优势。

Sep, 2016

基于深度学习模型的模糊基因选择和癌症分类

通过应用模糊基因选择技术，本研究提出了一个新的肿瘤分类模型，优于标准 MLP 方法，并在生物医学科学领域中提高了基因表达数据的分类准确性。

May, 2023

基于数据驱动的癌细胞系分子分析信息提取和丰富化

本文介绍了一种新的数据提取和探索系统，可以从癌细胞系的科学文献中提取文本实体之间的深层次语义关系，为现有结构化临床数据提供丰富的语义信息，并自动链接基因组拷贝数变异图与相关实体，以及相关文献证据，从而实现更为快捷深入的文献检索。

Jul, 2023

基于基因表达的卷积神经网络在癌症类型预测中的应用

本研究使用卷积神经网络 (CNN) 模型对 10,340 个来自 33 种不同癌症类型和 731 个正常组织样品进行分类，并在 1D-CNN 模型中确定了 2,090 个癌症标记物，其中包括 GATA3 和 ESR1 等已知标记，并对乳腺癌亚型进行了预测，取得了 88.42% 的平均准确率。

Jun, 2019

一种基于 LSTM、BiLSTM、CNN、GRU 和 GloVe 的混合机器学习模型用于癌症基因突变分类

本研究提出了一种集成模型，结合了 LSTM、BiLSTM、CNN、GRU 和 GloVe，用于对基因突变进行分类，在 Kaggle 的个性化医学中使用《重定义癌症治疗》数据集。结果与 BERT、Electra、Roberta、XLNet、Distilbert 以及它们的 LSTM 集成进行了比较。我们的模型在准确性、精确度、召回率、F1 分数和均方误差等方面胜过了所有其他模型。令人惊讶的是，它还需要较少的训练时间，从而实现了性能和效率的完美结合。本研究展示了集成模型在基因突变分类等困难任务中的实用性。

Jul, 2023

文本文件中什么是相关的？：一种可解释的机器学习方法

本文介绍了如何使用机器学习模型解释文本分类的决策过程以及如何生成基于词向量的文档表示方法。通过对两个不同类型的模型进行比较，表明卷积神经网络在可解释性方面的优势，也使得它更具有人类可理解性，并有潜力应用于其他领域。

Dec, 2016