针对检索的目标感知视频语言预训练
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。
Apr, 2020
基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。
Aug, 2023
本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer(OCVT)模型,该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态,相较于基于像素的模型,其显著提高了记忆效率,能够在单个 48GB GPU 上训练长度达 70 帧的视频,且在 CATER 任务上取得了最新的实验结果。
Jul, 2021
该论文提出了一种新型的 Transformer 模型,将文本和视频显式分离,通过注意力机制了解三种角色的内部和内部角色之间的相关性,以在不同级别上寻找识别特征,初步结果表明,在所有的指标中,我们的方法都超过了当前最先进的方 法,在两个指标上也超过了两种最先进的方法。
Jun, 2022
本研究提出了一种有效的方法来改进基于转换器的图像理解方法,通过在对象关系转换器结构上扩展 Attention on Attention 机制,实验表明我们的方法在 VLSP 举办的 Image Captioning 共享任务的公共测试和私人测试中显著优于原始结构。
Nov, 2022
本研究提出了基于 AOT 的嵌入式学习方法,通过将多个对象相互关联在同一高维度嵌入空间中,实现了同时处理多个对象的匹配和分割解码,具有更高的效率,并且在多个基准测试中均优于已有的 State-of-the-art 算法,是第三次大规模 VOS 挑战的第一名。
Jun, 2021
通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位,我们展示了近期视频表征学习和预训练视觉语言模型的重要进展,取得了显著的提升,并成为首个在常规视频基准数据集上具有良好结果的无监督方法。
Sep, 2023
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架,通过学习 mask 序列解决视频中物体的分割问题,并通过 Stacked Transformer 来捕捉物体级别的空间上下文。
Sep, 2023