BriefGPT.xyz
Ask
alpha
关键词
cross-modal perception
搜索结果 - 4
无监督可迁移模态视频精彩片段检测与表示激活序列学习
通过跨模态感知和自重建任务,在视觉 - 音频对数据中学习视觉 - 音频语义表示的网络,并通过表示激活序列学习模块(RASL)和对称对比学习模块(SCL)连接视觉模态与音频模态,提出了一种用于无监督高光检测的模型。在预训练期间,进行了掩码特征
→
PDF
4 months ago
CM-PIE:跨模态感知的交互增强音频视觉视频解析
本文介绍了一种基于片段注意力模块的交互增强型跨模态知觉方法(CM-PIE),该方法通过学习细粒度特征和增强跨模态交互以共同优化音频和视觉信号的语义表示,提高了在 Look, Listen, and Parse 数据集上的解析性能。
PDF
9 months ago
音视频语境下的学习:一份综述、分析和新视角
介绍了视听感知、跨模态感知和协同感知在计算机视听学习中的重要性,综述了该领域的最新发展,并提出了关于场景理解的新视角和未来发展方向。
PDF
2 years ago
CVPR
跨模态感知者:能否从声音中获取面部几何信息?
该论文研究了声音是否可以描绘出人脸的几何形状,提出了一种跨模态感知的分析框架,包括有监督和无监督学习,并构建了一个包含配对声音和面部网格的数据集,最终通过视觉和数字分析探究了这一核心问题。
PDF
2 years ago
Prev
Next