BriefGPT.xyz
大模型
Ask
alpha
关键词
mask autoencoders
搜索结果 - 2
AV-MaskEnhancer:通过音频 - 视觉蒙版自编码器增强视频表达
通过结合视听信息,我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示,解决了从低分辨率和模糊的原始视频中提取特征的挑战,并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9%
→
PDF
10 months ago
ICCV
预测 MAE:基于掩码自编码器的运动预测的自监督预训练
通过引入 Forecast-MAE,一种专为自我监督学习运动预测任务设计的掩模自编码器框架的扩展,利用标准 Transformer 块以及最小的内在偏差,我们在具有挑战性的 Argoverse 2 运动预测基准测试上进行的实验表明,Fore
→
PDF
10 months ago
Prev
Next