BriefGPT.xyz
Ask
alpha
关键词
hierarchical deep network architectures
搜索结果 - 1
CVPR
VidLA: 视频 - 语言对齐的大规模实现
我们提出了 VidLA,这是一种用于大规模视频 - 语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像 - 文本基础模型来提高最终性能。此外,我们利用最
→
PDF
4 months ago
Prev
Next