视频注释工具：使用视觉语言模型和主动学习有效构建视频分类器的框架

KDDFeb, 2024

视频注释工具：使用视觉语言模型和主动学习有效构建视频分类器的框架

Video Annotator: A framework for efficiently building video classifiers using vision-language models and active learning

PDF

Amir Ziai, Aneesh Vartakavi

TL;DR通过人机交互系统的更直接参与，使用一种新的框架 Video Annotator（VA）对视频分类数据集进行注释、管理和迭代，提高模型开发过程的效率、可用性和有效性，实现高质量模型的高效创建。

Abstract

High-quality and consistent annotations are fundamental to the successful development of robust machine learning models. Traditional data annotation methods are resource-intensive and inefficient, often leading t

annotations machine learning models data annotation methods human-in-the-loop system video annotator

发现论文，激发创造

使用帧级别查询进行视频分类的主动学习

本文提出了一种新的主动学习框架，通过选择一批典型样本和一组信息帧进行视频分类，以减轻人工注释员的负担。通过不确定性和多样性来确定信息化的视频，并利用代表性采样技术从每个视频中提取一组样本帧。

Jul, 2023

图像、音频和视频的 VIA 注释软件

本文介绍了一种简单且独立的手动标注工具 ——VGG 图像标注器（VIA）。该软件支持人工标注图像或视频帧中的空间区域以及音频或视频中的时间段，并可以将这些手动注释导出到 JSON 和 CSV 等文本格式，以便进一步处理。

Apr, 2019

视频目标分割中注释的内容与方法学习

EVA-VOS 是一种视频目标分割的人机协作注释框架，通过引入代理模型进行逐帧帧选择和注释类型预测，可以实现高准确度且比传统视频注释方法快 3.5 倍的对象掩模生成与注释时间降低。

Nov, 2023

注释器：适用于 LiDAR 语义分割的通用主动学习基线

在 LiDAR 语义分割领域，本文提出了一种通用而高效的主动学习基准模型 Annotator，通过定制化的基于体素的在线选择策略，在每个 LiDAR 扫描中高效地探测和标注显著和典型的体素格点，即使在分布转移下。Annotator 在主动学习、无源域自适应以及域自适应领域表现出色，在 LiDAR 语义分割基准测试中始终保持出色性能，包括从仿真到真实以及真实到真实的各种情境。令人惊讶的是，Annotator 高度高效，只需每个扫描标注五个体素格点，在 SynLiDAR-to-SemanticKITTI 任务中实现了令人印象深刻的性能，分别在主动学习、无源域自适应以及域自适应下达到了 87.8%、88.5% 和 94.4%。我们预计 Annotator 将为标签高效的三维应用提供一种简单、通用且高效的解决方案。

Oct, 2023

从网络视频中学习回答视觉问题

为了避免手动注释，提出了利用自动交叉模态监督生成视频问答数据集的方法，通过使用问题生成变形器从语音转录中生成问题 - 答案对，然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器，生成如何 VQA69M，WebVidVQA3M 和 iVQA 等不同数据集，结果表明在多个数据集上其结果优秀。

May, 2022

从数百万个叙述视频中学习回答问题

本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集，并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明，在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上，该方法明显优于现有技术。

Dec, 2020

连接视觉和语言：基于视频本地化叙述的研究

本文提出了一种新形式的多模态视频注释方法：基于视频的定位叙事。在此方法中，注释员不仅可以说出视频中发生的事件，而且还可以使用鼠标追踪分段来定位句子的表示部分。同时，作者采用了该方法对三个数据集中的 20,000 个视频进行了注释，并提供了视频故事理解和视频问题回答任务的评测基准以及来自强基准模型的参考结果。

Feb, 2023

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

有选择性的标注使语言模型更好的少样本学习器

本文提出了一种基于在上下文学习的策略，通过选择少量有代表性的例子来进行标注，进而为新的自然语言任务创建数据集，并证明了此方法在不同场景下都具有良好的效果。

Sep, 2022