全源网络监督学习用于视频识别
OmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持视觉任务,跨模态任务和多模态理解。
Sep, 2022
通过使用语言作为标签并引入时间和区域标记,我们寻求统一视频理解任务的输出空间,以建立全共享的编码器 - 解码器架构,并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果,为更普遍的视频理解提供了新的观点。
Mar, 2024
OmniTokenizer 是一种基于 Transformer 的 tokenizer,旨在处理图像和视频输入,并通过空间 - 时间解耦架构以及渐进式训练策略提供先进的重构性能。
Jun, 2024
OmniDataComposer 是一种创新的方法,用于多模态数据融合和无限数据生成,其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构,促进模态之间的互相增强和跨模态数据校正,将视频输入转化为详尽的顺序文档,从而更容易为大型语言模型处理,为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。
Aug, 2023
基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。
Aug, 2023
本文介绍了 Meta Omnium 数据集,并使用其来评估少样本元学习算法的能力,实验证明 Meta Omnium 可用于学习各种视觉任务,是一个用于元学习研究的有用工具。
May, 2023
本文提出了一种感知自然合成全方位视角光流数据集 FLOW360,其中包括 40 个不同的视频和 4000 个视频帧。为适应全方位的本质,我们提出了一种新的全方位光流表示学习框架 SLOF,通过对比损失和光流损失相结合的混合损失函数对网络进行对比训练,证明了该框架的有效性,并表现出 40% 的性能提升。
Aug, 2022
介绍了 OmniCorpus 数据集,一个 100 亿级别的图文交错数据集,与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯,通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性,为未来的多模态模型研究提供了坚实的数据基础。
Jun, 2024
OmAgent 是一个能够在多模态环境下高效地存储和检索视频帧的系统,通过动态调用 API 和工具进行查询处理和准确性增强,可以确保鲁棒的视频理解,显著减少信息丢失。
Jun, 2024
提出了一个名为 Omni3D 的大型测试数据集,其中包含 234k 个图像,涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型,能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022