蛋白质表示学习的深度流形变换
该研究使用均场理论流形分析来分析来自大规模上下文嵌入模型的语言表示,发现在不同的模型家族中出现了语言流形的证据,尤其是在多义词和包含许多单词的词性类别中,此外,发现这些流形中的线性可分性的出现是由流形半径、维度和流形间相关性的共同减少所驱动的。
Jun, 2020
本文提出了一种通过 Representation Learning via Dictionary Learning(R2DL)框架,在少于一定训练样本的情况下对蛋白质序列进行嵌入,可以更好地进行蛋白质属性预测,并且可以比基于预先训练和标准监督方法的基线提高 $10^5$ 倍以上。
Jan, 2023
该研究介绍了扩散蛋白质语言模型(DPLM),一种多功能的蛋白质语言模型,展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练,使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外,DPLM 通过生成预训练使得其对蛋白质具有更好的理解,成为一种优秀的表示学习器,可以根据不同的预测任务进行微调,与 ESM2(Lin et al.,2022)相比具有较好的效果。此外,DPLM 可以根据需求进行定制,通过几种方式展示其条件生成的能力:(1)以部分肽段序列为条件,例如高成功率生成功能基序的脚手架;(2)以其他模态为条件,例如结构条件生成逆折叠;以及(3)通过插入式分类器指导将序列生成导向所需的属性,例如满足指定的二级结构。
Feb, 2024
通过将外在流形表征嵌入到深度神经网络中,Deep Extrinsic Manifold Representation (DEMR) 方法用于视觉任务,不直接优化复杂的测地损失,而是侧重于优化嵌入欧氏空间内的计算图,以适应不同的架构要求;在两种流形类型 ——$SE (3)$ 及其相关商流形上,提供了理论上的可行性、渐近性质和泛化能力的实验证据。DEMR 在点云对齐和光照子空间学习方面表现出良好的适应性。
Mar, 2024
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
该研究提出了一种名为 Markov-Lipschitz 深度学习(MLDL)的新框架,用于处理神经网络转换中的几何退化,以实现基于流形的表示学习和流形数据生成。该框架可以通过引入局部等距光滑(LIS)先验约束到马尔可夫随机场(MRF)Gibbs 分布中,使层间具有良好的 LIS 受限性,从而增强了矢量变换。大量实验、比较和消融研究显示了 MLDL 在流形学习和流形数据生成方面的显著优势。
Jun, 2020
本研究通过验证在特征空间中使用主要流形分布相对于高斯分布的理论和实际优势,提出了一种新颖的轨迹感知主要流形框架,用于恢复流形骨干并沿特定轨迹生成样本。此外,通过引入一个内在维度正则化项,该框架能够使流形更紧凑,并实现少样本图像生成。实验结果表明,该框架能够提取更紧凑的流形表示,提高分类准确性,并在少样本之间生成平滑的变换。
Jul, 2023
本论文提出了一种新的范式,通过将所有实例的流形信息嵌入到裁剪网络的空间中 (称为 ManiDP),以动态地去除冗余的过滤器以最大化挖掘给定网络架构中的冗余。在几个基准测试中验证了所提出的方法的有效性,在精度和计算成本方面显示出与现有技术方法相比更好的性能可将 ResNet-34 的 FLOP 降低 55.3%,且仅仅减少 0.57%的 Top-1 精度,ImageNet。
Mar, 2021
本文提出了一种利用图神经网络和自然语言大模型生成结构和序列感知型蛋白质表示的新框架,并将其与传统的基于结构对齐的方法相比较,证明了该方法在比较蛋白质结构和蛋白质结构分类任务中的优越性能。
Jun, 2023
提出一种新的深度神经网络训练目标函数,叫做流形规范网络(MRnet),通过最小化样本和对抗样本的多层嵌入结果之间的差异来提高对抗性鲁棒性,实验结果表明 MRnet 更具有对抗性鲁棒性,并帮助我们在流形上推广表示。此外将 MRnet 和 dropout 相结合,为三个著名的基准测试数据集(MNIST,CIFAR-10 和 SVHN)实现了有竞争的分类性能。
Nov, 2015