Feb, 2022

Transformer 与生物医学背景知识的表示

TL;DR我们研究了基于 transformer 模型(如 BioBERT 和 BioMegatron)在公开的生物医学语料库的基础上如何适应生物医学领域,以及它们编码和表征生物知识的潜力和在癌症精准医学中的应用 - 即,解释基因组变异的临床意义。通过探测、分析和比较这些模型中的基因、变异、药物和疾病的嵌入内部属性,我们证明这些模型确实对生物知识进行了编码,但在针对特定任务进行微调时会失去部分知识。最后,我们分析了模型在数据集中偏见和不平衡方面的行为。