audio-visual representations | BriefGPT

关键词audio-visual representations

搜索结果 - 4

扩散模型作为遮蔽音频 - 视频学习器
学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示，最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL，通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构，并通过训练效率方法的结合降低了 32％的浮点预
PDF9 months ago
AAAI放松交叉模态同步的自监督音视频表示学习
CrissCross 是一种自监督学习框架，用于学习音频和视觉之间的表示，它还可以学习异步交叉模态关系，通过在多项下游任务方面的表现显示其有效性，并在 Kinetics-Sound 数据集上实现了优于或不逊于当前自监督方法的表现，同时也提供
PDF3 years ago
AVLnet：从教育视频中学习音频 - 视觉语言表示
本文提出了一种自我监督网络 AVLnet，可从视频中直接学习共享的音频 - 视觉嵌入空间，并通过分析 AVLnet 的学习表示提出了一种三模态模型，用于学习多模态语义嵌入空间，其中包括用于音视频检索的文本标题。
PDF4 years ago
跨模态一致性下的视听实例鉴别
文中介绍了一种自监督学习方法，通过交叉模态辨别视频和音频来学习视听表征，其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别，可以学习到来自视频和音频的良好表征，并可于行动识别任务中获得高竞争性能。同时，文中提到该方法采用交
PDF4 years ago