Feb, 2024

集成深度学习与合成生物学:通过 N - 末端编码序列增强基因表达的共设计方法

TL;DR利用深度学习与合成生物学协同设计的少样本训练工作流程,为 NCS 优化引入了一种新方法,通过 k 最近邻编码和 word2vec 对 NCS 进行编码,利用注意机制进行特征提取,构建时间序列网络预测基因表达强度,并通过直接搜索算法在有限训练数据中确定最佳 NCS。对 Bacillus subtilis 表达的绿色荧光蛋白进行测试,结果显示该方法生成的 NCS(MLD62)能使 GFP 的平均表达量增加 5.41 倍,优于当前最先进的 NCS 设计。通过进一步实验,我们还证明了工程化的 NCS(MLD62)能够有效提高 N - 乙酰神经氨酸酸的产量,并提升关键限速基因 GNA1 的表达,证明了其实际的实用性。我们已经开源了 NCS 表达数据库和实验流程供公众使用。