- CVPR学习从图像描述到视频检索
我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练,在这种协议下,我们不假设对任何视频有标签的访问,即没有对应用真实字幕的视频集的访问权限;但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景,因为注释图像比昂 - 数百万视频上的视觉语言模型蒸馏
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频 - 语言基准上取得了显著结果。
- EMNLP文本到视频检索的框架选择的实证研究
为了有效地选择文本到视频检索过程中最具代表性的帧并提高检索效率,该论文通过对现有方法的分类和分析,提出了两种新的帧选择方法,并从多个 TVR 基准测试得出结论:适当的帧选择可以显著提高检索效果。
- TeachCLIP: 高效文本到视频检索的多粒度教学
通过多层次教学,利用具有更高性能但计算负荷较大的模型,如 X-CLIP、TS2-Net 和 X-Pool,以及引入注意力框架特征聚合(AFA)块来提高学生网络的学习能力,以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。
- 利用文本条件特征对齐进行音频增强的文本到视频检索
通过引入 TEFAL 方法,利用跨模态注意力机制实现了文本查询条件下的音频和视频表示,从而提高了文本到视频检索任务的性能。
- MSVD-Indonesian: 一种用于印度尼西亚多模式视频文本任务的基准
本文介绍了开发第一个印象尼西亚视频文本数据集的方法,并使用交叉语言迁移学习来改进三个任务的表现,即文本到视频检索,视频到文本检索和视频字幕生成。
- AAAI具有金字塔式多模态变换器的高效端到端视频问答
本文提出了一种新的端到端视频问答方法,使用金字塔多模态变换器(PMT)模型实现视频语言交互,通过使用异性金字塔在不同的时空尺度上实现跨视频语言交互,并在保持本地和全局语义完整性的同时,将视频特征流分解为空间和时间子流,并实现它们与语义的交互 - ECCV所有组合都相等吗?使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的 softmax 运算来修正推断的查询 - 视频相似性,并在三个大规 - SMAUG:用于高效视频语言预训练的稀疏掩蔽自编码器
研究报告介绍了一个高效的视频语言模型预训练框架 ——SMAUG,该框架采用掩蔽自编码器、时空标记稀疏模块等多种设计,旨在实现视觉和文本模态之间更好的交叉模态对齐、节省更多的预训练成本,并在多个基准测试上具有极高的性能。
- ACL用 FIRE 对抗火灾:评估文本到视频检索基准的有效性
通过修正误标的负样本,我们评测了三种模型在两个标准测试集上的表现,发现在最佳模型上,修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和,同时我们推荐以样本抽样方式缓解标注数据成本,对未来的 text-t - MM部分相关性视频检索
本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务,并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络,以同时学习剪辑尺度和帧尺度下的相似性,并在三个数据集上进行了全面的实验来证明该方法的可行性,还表明该方法可以用 - 揭示视频及语言学习中的单帧偏差
本文探讨了视频与语言学习中基于单帧的模型的应用,结果表明在大规模预训练条件下,采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳,并且作者提出了两个基于现有细粒度动作识别数据集的检索任务,以便更全面地评估视频与语言模型。
- ECCVECLIPSE: 利用视听进行高效长距离视频检索
我们引入了一种音视频结合的文本到视频检索方法,称为 ECLIPSE,该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频,提高了检索准确性降低了计算成本。
- 基于阅读策略的视觉表征学习用于文本至视频检索
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
- ECCV轻量级注意力特征融合:文本到视频检索的新基准
本文提出了一种轻量级关注特征融合 (LAFF) 的方法,它旨在通过优化特征的凸组合来实现文本到视频的检索,并且在两端均进行特征融合,大大提高了利用已有特征的能力,并证明其作为文本到视频检索新基准的有效性。
- ICCV用于自监督学习的多模聚类网络:来自无标签视频
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
- 少即是多:基于稀疏采样的 ClipBERT 视频与语言学习
提出了一个 ClipBERT 的通用框架,通过稀疏采样实现了视频和语言任务的廉价端到端学习,该方法在多个数据集上进行的实验表明,与使用全长视频的现有方法相比,使用少量稀疏采样剪辑进行端到端学习通常更准确。
- ICLR支持集瓶颈用于视频 - 文本表示学习
本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法,以确保表征不过度特化于个别样本,可以在数据集中重复使用,并且结果表明,相对于噪声对比学习,我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得 - 基于上下文嵌入的故事检索简化版影片
本研究旨在通过提取电影的关键场景进行长距离理解电影的故事结构,创建了由超过 3,000 部电影中的关键场景组成的简化电影数据集(CMD),其中每个场景都附有场景的高级语义描述、角色面部轨迹和有关电影的元数据,提供了文本到视频检索的深度网络基