BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-visual representations
搜索结果 - 4
扩散模型作为遮蔽音频 - 视频学习器
学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示,最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL,通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构,并通过训练效率方法的结合降低了 32%的浮点预
→
PDF
9 months ago
AAAI
放松交叉模态同步的自监督音视频表示学习
CrissCross 是一种自监督学习框架,用于学习音频和视觉之间的表示,它还可以学习异步交叉模态关系,通过在多项下游任务方面的表现显示其有效性,并在 Kinetics-Sound 数据集上实现了优于或不逊于当前自监督方法的表现,同时也提供
→
PDF
3 years ago
AVLnet:从教育视频中学习音频 - 视觉语言表示
本文提出了一种自我监督网络 AVLnet,可从视频中直接学习共享的音频 - 视觉嵌入空间,并通过分析 AVLnet 的学习表示提出了一种三模态模型,用于学习多模态语义嵌入空间,其中包括用于音视频检索的文本标题。
PDF
4 years ago
跨模态一致性下的视听实例鉴别
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交
→
PDF
4 years ago
Prev
Next