利用双向编码表示从 Transformers 分类癌症基因效应
该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调,成功将其应用于客户电话满意度预测和话题分类任务中,并在两个任务中取得了显著的改进。
Oct, 2019
通过对与饮食失调相关的推文进行分类,本研究使用传统机器学习和深度学习模型,发现基于 Transformer 的双向编码器表现最佳,能高效地识别与饮食失调相关的推文,并获得最高 71.1%-86.4% 的 F1 分数。
Feb, 2024
我们研究了基于 transformer 模型(如 BioBERT 和 BioMegatron)在公开的生物医学语料库的基础上如何适应生物医学领域,以及它们编码和表征生物知识的潜力和在癌症精准医学中的应用 - 即,解释基因组变异的临床意义。通过探测、分析和比较这些模型中的基因、变异、药物和疾病的嵌入内部属性,我们证明这些模型确实对生物知识进行了编码,但在针对特定任务进行微调时会失去部分知识。最后,我们分析了模型在数据集中偏见和不平衡方面的行为。
Feb, 2022
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
本文讨论了在基于图像分析的癌症检测中,迁移学习(TL)和 transformers 的作用。通过分析医学图像,如 CT 扫描和 MRI,以识别可能有助于癌症检测的异常生长,TL 等方法已被证明可以提高癌症分类和检测的质量和性能。本文对基于图像分析的 TL 方法进行了分析和批评,并比较了每种方法的结果,显示 transformers 在结肠癌检测(97.41%)和组织学肺癌(94.71%)方面取得了最佳结果。另外,还讨论了基于图像分析的癌症检测的未来方向。
Nov, 2023
本文介绍了一种利用多头自注意力机制的深度学习方法 Gene Transformer,用于对基因表达数据进行肺癌亚型分类,效果比传统算法更好,此方法有望在计算生物学中得到更好的应用。
Aug, 2021
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
TocBERT 是一个使用双向转换器进行文本分割的新解决方案,它通过从语义表示中检测标题和子标题来训练一个监督式的解决方案,该任务被制定为命名实体识别(NER)问题。它在医学文本分割应用中表现出色,用于细调 Bio-ClinicalBERT 模型以分割 MIMIC-III 数据集的出院总结,并在人工标注的 250 个注释数据集上取得了较高的 F1 分数。在线性文本分割问题上达到了 84.6%的 F1 分数,在分层文本分割问题上达到了 72.8%的 F1 分数,它在区分标题和副标题方面表现出色,超越了仔细设计的基于规则的解决方案。
Jun, 2024
本研究展示了 BERT 如何在文本摘要中有用地应用,并提出了一种通用的框架,包括抽取式模型和生成式模型。在此框架下,我们引入了一种新的基于 BERT 的文档级编码器,该编码器能够表达文档的语义并获取其句子的表示,通过堆叠多个 Transformer 层来构建我们的抽取式模型,对于生成式摘要,我们提出一种新的微调策略,以解决编码器和解码器之间的不匹配问题,并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明,我们的模型不仅在抽取式设置下,在生成式设置下也达到了最先进的水平。
Aug, 2019