大规模视频数据集中离散状态的半自动标注
介绍一个新的视频数据集AVA,其中定义了80个原子视觉动作并进行了精确的时空注释,可以帮助改进动作识别。提出了一种基于现有方法的新方法,针对JHMDB和UCF101-24类别的表现更佳,但在AVA上仍需开发新的视频理解方法,表明该数据集暴露了动作识别的内在困难。
May, 2017
通过在未标注的视频序列和额外图像上使用半监督学习,结合人工标注标签和伪标签数据进行训练,该简单而有效的迭代半监督学习方法在城市街景分割任务上取得了67.8%的PQ,42.6%的AP 和85.2%的mIOU的最优成果,并在核心计算机视觉任务上实现了超越最先进水平的重要进展。
May, 2020
本论文提出了一种半自动化的包围盒标注方法,利用跟踪-检测方法和时间信息,采用现成的目标检测器训练,利用多重假设追踪(MHT)来提高检测结果的可靠性,并使用人工评估来进行迭代标注。通过实验显示,该方法可以将标注工作量减少96%。
Jan, 2021
本文提出了一种新的主动学习框架,通过选择一批典型样本和一组信息帧进行视频分类,以减轻人工注释员的负担。通过不确定性和多样性来确定信息化的视频,并利用代表性采样技术从每个视频中提取一组样本帧。
Jul, 2023
我们提出了一种新颖的半监督视频对象分割(SSVOS)模型XMem++,通过引入永久记忆模块来改进现有的基于记忆的模型,在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一致的结果,并引入了一种迭代和基于注意力的帧建议机制来计算最佳的下一帧注释。此外,我们还介绍了一个新的数据集PUMaVOS,该数据集覆盖了以前基准中未出现的新的挑战性用例。我们在具有挑战性的(部分和多类别)分割场景以及长视频上展示了SOTA性能,同时确保显著减少了任何现有方法的帧标注数量。
Jul, 2023
通过利用视频的动态运动特性,我们引入了SSVOD,一个端到端的半监督视频目标检测框架,以利用大规模未标记的帧和稀疏注释来选择性地组装鲁棒的伪标签,并通过结合硬伪标签和软伪标签的置信度阈值进行伪标签的确认偏见和不确定性噪声的平衡,从而在ImageNet-VID,Epic-KITCHENS和YouTube-VIS数据集上实现了显著的性能改进。
Sep, 2023
通过人机交互系统的更直接参与,使用一种新的框架Video Annotator(VA)对视频分类数据集进行注释、管理和迭代,提高模型开发过程的效率、可用性和有效性,实现高质量模型的高效创建。
Feb, 2024
本研究解决了自动化物体检测中高效、高质量标注的挑战。我们开发了一个交互式平台,允许用户上传和标注图像,并通过半自动的方式优化物体检测模型,从而显著提高标注效率,实验结果显示Semi-automatic标注在时间上节省了多达53%的成本,同时保持或超越了人工标注的准确性。这一研究表明该平台在高质量物体检测数据集创建中的潜力,并为未来标注平台的开发提供了最佳实践指引。
Nov, 2024