Oct, 2023

一个解码mRNA的5'UTR语言模型和功能预测

TL;DR我们引入了一个名为UTR-LM的5'UTR语言模型,该模型在多个物种的内源性5'UTR上进行了预训练,并使用了包括二级结构和最小自由能在内的监督信息进行了进一步增强,该模型在多个下游任务中表现优于已知的最佳基准,可用于预测核糖体的平均装载量以及翻译效率和mRNA表达水平,还可用于确定未注释的非编码区域内的内源性核糖体入站位点,并相对于最佳基准将AUPR从0.37提高到0.52。此外,我们设计了一个包含211个高预测翻译效率的译码区的库,并通过湿实验进行了评估,实验结果确认我们的顶级设计相对于为治疗学进行了优化的成熟5' UTR,可以获得32.5%的蛋白质产量增加。