BriefGPT.xyz
Ask
alpha
关键词
video-language pre-trained models
搜索结果 - 2
ICCV
Tem-adapter: 图像文本预训练方法用于视频问答
通过引入 Tem-Adapter,结合视觉时间对齐器和文本语义对齐器,利用图像预训练的知识来弥合图像和视频领域之间的差距,以实现学习时间动力学和复杂语义的目的,并通过两个 VideoQA 基准测试验证了该方法的有效性。
PDF
a year ago
EMNLP
LiteVL:增强空间 - 时间建模的高效视频 - 语言学习
本文提出 LiteVL 模型,结合 BLIP 图像语言模型,通过使用动态时态缩放,给图像编码器添加时间注意力模块,并提出非参数池化机制,以自适应地重新加权文本条件下的细粒度视频嵌入,取得了良好的性能,即使没有进行任何视频 - 语言预训练。
PDF
2 years ago
Prev
Next