BriefGPT.xyz
Ask
alpha
关键词
video-and-language understanding
搜索结果 - 3
MuLTI: 多路径采样与多项选择模型实现高效视频和语言理解
本文提出了一种高精度、内存高效的视频和语言理解模型 MuLTI,通过特征采样和注意力模块实现了高效而有效的特征融合,引入了基于注意力的适配器来微调编码器的浅层特征以提高模型性能,最后引入了一种新的预训练任务 Multiple Choice
→
PDF
a year ago
CVPR
VindLU:一种实现视频与语言预训练的有效方法
该研究论文分析了现代视频和语言(VidL)模型设计的最重要因素,其中包括时空建模、多模态融合、预训练数据选择和细调等,发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要,提出了一种名为 VindL
→
PDF
2 years ago
VALUE:一个视频和语言理解评估的多任务基准
本研究通过 VALUE 基准测试,探讨了基于多个数据集完成多个任务的视频与语言理解模型,重点考虑来源于多种视频类型,利用通过视频帧和相关字幕来分析视频文本内容,以及学习多任务的视频与语言理解能力,进一步推动视频与语言理解技术的发展。
PDF
3 years ago
Prev
Next