BriefGPT.xyz
Ask
alpha
关键词
multi-sensory representations
搜索结果 - 1
自监督同步下的音频和视频模型协同学习
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
PDF
6 years ago
Prev
Next