BriefGPT.xyz
大模型
Ask
alpha
关键词
lifelong audio-video masked autoencoder
搜索结果 - 1
具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐
我们提出了一种终身音视频遮罩自编码器,它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言,我们提出了两个创新点来解决这个问题:(1)局部对齐:我们引入了一个小型可训练的多模态编码器,用于预测彼此相互对齐的音频和视频令牌。这使得
→
PDF
9 months ago
Prev
Next