该论文提出了一种利用多个成像模式的新型自监督方法,设计了一个多模式拼图任务以促进多种图像模式的特征表征,提出了一种利用跨模态生成技术进行多模态数据增强的方法,实验表明该方法能够提高数据效率和语义表征,广泛应用于四种不同的下游任务,并取得了领先的成果。
Dec, 2019
本文设计了一个基于自监督学习策略的标签生成模块,通过联合训练多模态和单模态任务来分别学习一致性和差异,采用权重调整策略来平衡不同子任务的学习进度,验证了自动生成的单模态监督标签的可靠性和稳定性,超过了现有的最先进方法和人工注释的单模态标签。
Feb, 2021
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
Apr, 2021
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017
该研究提出了一种多锚点主动学习策略用于语义分割无监督领域适应,以缓解手动注释的工作量,并在公共数据集上大量提高性能。
Aug, 2021
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构,并获得了最新的性能。
Aug, 2018
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本文介绍了一种新的领域适应策略 - “交叉模态学习”,在无监督和半监督领域适应设置下,通过两种模式的相互模仿实现模态之间的一致性,在 3D 语义分割任务中证明了该方法的有效性
Jan, 2021
我们提出了一个多模态变分自编码器 (M-VAE),能够在学习图像特征和语义空间之间的共享潜在空间上,通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本,且实验结果表明在广义零样本学习方面,我们提出的模型优于当前最先进的方法。
Jun, 2021
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018