关键词cross-modal prediction
搜索结果 - 2
- 多模式变分自编码器中共享和私有潜在因素的解耦
用于多模态数据的生成模型可用于识别与观察数据异质性重要决定因素相关的潜在因素。然而,存在一些变量是特定于单个模态的私有变量,而共享变量对解释多模态数据的变异性很重要。本研究探讨了多模态变分自编码器在可靠地实现这种解缠的能力方面,针对一种挑战 - 跨模态音视频聚类的自监督学习
实现了基于交叉模态预测、自监督学习和深度聚类的方法,通过将一种模态的非监督聚类用作对另一种模态的监督信号来利用视觉和音频之间的语义相关性和差异,实现了在多个视频和音频数据集上优于其他方法的预训练模型,特别是通过仅使用大规模无标签数据预训练的