BriefGPT.xyz
大模型
Ask
alpha
关键词
webvid-2m
搜索结果 - 1
ICCV
凝固的时间:一种用于端到端检索的联合视频和图像编码器
本研究目标是视频文本检索 - 特别是一种联合嵌入,可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型,旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展,包括时间和空间方面的
→
PDF
3 years ago
Prev
Next