May, 2024

利用环境结构:系统发展正则化鼓励解开的表征

TL;DR通过从多个相关数据集和任务中推断潜在变量,我们开发了一种从基因表达预测表型等任务中学习潜在因果变量的方法,其中关键观点是基于基因表达引起的潜在变量与感兴趣表型之间的映射在密切相关的环境下变化稀疏。我们引入了树状正则化来建模稀疏变化,通过最小化预测误差并对密切相关的环境进行正则化以学习相似的预测器,理论证明了在稀疏变化程度的某些简单转换下,树状正则化能够识别出真正的潜在变量。我们在模拟实验和真实的基因表达数据上进行了理论验证,发现在这些设置下,相比相关方法,树状正则化更好地恢复了潜在因果变量,即使在违背某些理论假设的情况下也是如此。