RepBin: 基于约束的图形表示学习用于基因组分箱
本文介绍了如何使用并行化算法代替单处理器机器上基于回溯算法的Bayesian网络结构学习,以提高效率和稳定性。同时,利用该框架,以及4个参考网络和2个现实中的数据集,演示了约束性算法的实现性能。
Jun, 2014
本文提出了一种基于概率生成模型的方法vGraph,用于协同地学习社区成员和节点表示,旨在发现图的全局和局部结构;实验表明vGraph在社区检测和节点表征学习方面的性能优于多个竞争基线。
Jun, 2019
本文提出了一种面向多个图形的一般图级聚类框架,名为GLCC,它使用对比学习技术,包括实例级和聚类级联合优化表示学习,以及使用邻域感知伪标签来奖励优化表示学习的过程。实验证实,GLCC比其他竞争基线方法表现更好。
Oct, 2022
从粗略标记的数据中发现细粒度类别是一项实用且具有挑战性的任务,本文提出了一种自我监督的框架——Denoised Neighborhood Aggregation (DNA),它能够将数据的语义结构编码到嵌入空间中,通过聚合邻居信息来学习紧凑的聚类表示,并能够捕捉到数据之间的语义相似性和形成紧凑的细粒度聚类。
Oct, 2023
我们提出了一种能够整合不同类型约束的半监督聚类方法——结构熵半监督聚类 (SSE),通过将常用的成对约束和标签约束统一处理,将约束融入结构熵中,并为其优化设计了相应的目标函数和算法。我们使用九个聚类数据集对SSE进行了实验比较,结果表明它在具有不同类型约束时能够获得较高的聚类准确性。此外,我们通过对四个单细胞RNA测序数据集进行的细胞聚类实验证明了SSE在生物数据分析中的功能。
Dec, 2023
通过引入 DNABERT-S模型对 DNA 进行嵌入,结合 Manifold Instance Mixup 和 Curriculum Contrastive Learning(C2LR)策略,本研究在基因组学分析中取得了显著的性能提升,尤其在元基因组分组和物种分类方面表现突出。
Feb, 2024
使用图神经网络在元基因组组装图的自监督学习框架中,将DNA序列分类为重复与非重复类别,通过结合测序特征和预定义及学习的图特征,GraSSRep实现了领先业界的重复检测性能。
Feb, 2024
通过蛋白质基因表示为基础,引入了一种上下文感知和结构相关的分词器,即Masked Gene Modeling(MGM)用于基因组级预训练,Triple Enhanced Metagenomic Contrastive Learning(TEM-CL)用于基因级预训练,提出了一种新颖的 metagenomic language model(NAME),基于1亿个元基因组序列进行了预训练,并在八个数据集上展示了其卓越性能。
Feb, 2024
我们使用图卷积技术设计了一种名为gFlora的方法,该方法通过分析土壤微生物群落的生态共存网络,发现功能共响应群的共响应效果,并证明该方法在评价指标上优于现有方法,同时还发现了有关少数研究的微生物群的新的功能证据。
Jul, 2024
本研究针对单细胞RNA测序数据分析中的复杂数据分布和低质量训练样本问题,提出了一种基于单细胞课程学习的深度图嵌入聚类方法(scCLG)。通过引入带有多解码器的切比雪夫图卷积自编码器,并结合选择性训练策略,提升了细胞间拓扑表示的学习效果。实证结果表明,该模型在多种基因表达数据集上超越了现有的先进方法。
Aug, 2024