关键词cross-modal representation learning
搜索结果 - 8
- RedCore:相对优势感知的跨模态表示学习:针对不平衡缺失率的情况
我们提出了一种名为 RedCore 的相对优势感知跨模态表示学习方法,用于处理存在缺失模态和具有不平衡缺失率的情况,通过 VIB 方法进行跨模态表示学习并通过双层优化问题自适应调节所有模态的监督,实验证明 RedCore 模型在对大量或不平 - 计算机视觉中的自监督多视角聚类:一项调查
多视图聚类在跨模态表示学习和数据驱动决策方面具有重要影响;然而,随着对比学习在计算机视觉领域的不断发展,自监督学习也在多视图聚类方法中逐渐占主导地位。该论文探讨了自监督多视图聚类的原因、优势以及常见数据集、数据问题、表示学习方法和自监督学习 - 利用视觉基础模型分离任意点云序列
本文介绍一种名为 Seal 的新型框架,其利用视觉基础模型(VFMs)对不同类型的汽车点云序列进行分割,具有可扩展性、一致性和普适性,并在 11 种点云数据集上进行了广泛实验,取得了显著的性能提升。
- 基于面部图像的语音控制的零样本个性化唇语合成
本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,并采用变分自编码器对讲话人身份和语言内容进行解藕,由此实现了对未知说话人的声音特征进行控制。此外,我们还探索了跨模态表示学习以提高面部说话人嵌入(FSE)的语音 - VATLM:基于联合掩码预测的视听文字预训练方法,用于语音表示学习
本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任 - 视听概念系统的跨模态对齐学习
本文提出了学习与婴儿词汇学习机制相似的视觉 - 语言概念系统的方法,包括了在线学习视觉对象和词汇之间的关联以及自监督学习的语义表示等。作者在目标词与词语匹配以及零样本学习任务中进行了定量和定性检验,结果表明该模型在性能方面优于其他基础模型并 - 基于阅读策略的视觉表征学习用于文本至视频检索
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
- SEA: 用文本查询进行视频检索的句子编码器组合
本研究提出了一种名为 Sentence Encoder Assembly 的新方法,通过多空间多损失学习实现语句编码器的有效利用和文本 - 视频匹配,并在四个基准测试中表现出优于当前最先进技术的性能。