本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练,本文提出了一种基于文本的学习视频表示的方法,证明了这种方法在预训练视频表示中比现有的方法更有效。
Jul, 2020
为了提高视频检索的性能,我们提出了一种名为 ViSERN 的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像 - 文本对中学习,我们的方法能够利用对比损失学习到新出现的对象 - 语义线索,在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
通过自我监督场景文本分割算法,基于对象为中心的分割方式将图像分割为文本和背景层,改进网络对文本的敏感性,以解决像素级标签和合成数据集的问题,取得了比现有算法更好的效果。
Aug, 2023
本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt,通过提出视频 - 文本对比(VTC)损失和提示实体建模(PEM)任务来更好地跨模态对齐,从而学习精细的区域 - 实体对齐,与以前的方法相比取得了显着性能提升。
本文提出了 VideoCLIP,这是一种对比学习方法,用于在没有下游任务的标签情况下,预训练用于零样本视频和文本理解的统一模型。我们的实验表明,这种方法在一系列下游任务中的表现最优,超越了之前的工作,并在某些情况下甚至优于有监督方法。
Sep, 2021
本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。
Apr, 2020
本文提出了一种简单而有效的视频 - 语言预训练框架,用于视频 - 文本检索任务,并采用掩蔽对比视频 - 语言预训练进行了优化,以提高预训练效率和性能,并实现了与图像 - 文本检索任务的竞争结果。
Dec, 2022