全源网络监督学习用于视频识别

Mar, 2020

Omni-sourced Webly-supervised Learning for Video Recognition

PDF

Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin

TL;DROmniSource 是一个使用多种数据源和格式进行联合训练的框架，能够在没有人类标记的情况下从网上抓取 3.5M 的图片和 800K 分钟的视频，提高了在视频识别领域的表现。

Abstract

We introduce omnisource, a novel framework for leveraging web data to train video recognition models. →

omnisource web data video recognition webly-supervised learning joint training

发现论文，激发创造

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

OmniVid: 通用视频理解的生成框架

通过使用语言作为标签并引入时间和区域标记，我们寻求统一视频理解任务的输出空间，以建立全共享的编码器 - 解码器架构，并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果，为更普遍的视频理解提供了新的观点。

Mar, 2024

OmniTokenizer: 一个用于视觉生成的联合图像 - 视频分词器

OmniTokenizer 是一种基于 Transformer 的 tokenizer，旨在处理图像和视频输入，并通过空间 - 时间解耦架构以及渐进式训练策略提供先进的重构性能。

Jun, 2024

OmniDataComposer：多模态数据融合与无限数据生成的统一数据结构

OmniDataComposer 是一种创新的方法，用于多模态数据融合和无限数据生成，其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构，促进模态之间的互相增强和跨模态数据校正，将视频输入转化为详尽的顺序文档，从而更容易为大型语言模型处理，为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。

Aug, 2023

Video OWL-ViT：视频中的时间一致性开放世界定位

基于 OWL-ViT 模型，我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位，从而实现了更好的时间一致性和更强的开放世界能力。

Aug, 2023

元学习基准测试：Meta Omnium

本文介绍了 Meta Omnium 数据集，并使用其来评估少样本元学习算法的能力，实验证明 Meta Omnium 可用于学习各种视觉任务，是一个用于元学习研究的有用工具。

May, 2023

通过同构表示学习全向视频的全方位流动

本文提出了一种感知自然合成全方位视角光流数据集 FLOW360，其中包括 40 个不同的视频和 4000 个视频帧。为适应全方位的本质，我们提出了一种新的全方位光流表示学习框架 SLOF，通过对比损失和光流损失相结合的混合损失函数对网络进行对比训练，证明了该框架的有效性，并表现出 40% 的性能提升。

Aug, 2022

OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

介绍了 OmniCorpus 数据集，一个 100 亿级别的图文交错数据集，与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯，通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性，为未来的多模态模型研究提供了坚实的数据基础。

Jun, 2024

OmAgent: 复杂视频理解的多模态代理框架与任务分割

OmAgent 是一个能够在多模态环境下高效地存储和检索视频帧的系统，通过动态调用 API 和工具进行查询处理和准确性增强，可以确保鲁棒的视频理解，显著减少信息丢失。

Jun, 2024

Omni3D：野外 3D 物体检测的大规模基准和模型

提出了一个名为 Omni3D 的大型测试数据集，其中包含 234k 个图像，涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型，能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。

Jul, 2022