基于伪标签监督的视频查询摘要
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
本文提出了一种基于音频和视觉的聚类方法,可以实现对视频数据集的无监督标记。经过广泛的分析,结果聚类与人工标签有很高的语义重叠性。同时,该方法也为 Kinetics,Kinetics-Sound,VGG-Sound 和 AVE 等常见视频数据集的无监督标记带来了首批基准结果。
Jun, 2020
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024
本文提出了一种半监督学习的方法,即自我训练范式,通过用标注数据训练教师模型并在大量未标注数据上生成伪标签,以较少的监督实现像素级准确模型,并在 Cityscapes,CamVid 和 KITTI 数据集上取得了最优表现,同时,在具有挑战性的跨域泛化任务上表现更佳,最后,为了减轻大量伪标签带来的计算负担,提出了一种快速训练计划来加速分割模型的训练。
Apr, 2020
本文提出了一种基于时序伪监督的方法(TPS)来进行视频语义分割,该方法可以在适应有标签的源域到无标签的目标域时,通过跨视频帧产生伪标签的方式缓解数据标注的限制,从而提升了处理多样性目标数据时的准确率。实验证明,TPS 比现有技术更稳定,更简单易实现,且具有更高的视频语义分割准确率。
Jul, 2022
本论文提出了一种基于半监督学习的视频显著性目标检测方法,使用伪标签从稀疏注释帧中生成像素级伪标签,并结合部分手动注释,学习了空间和时间线索,进而产生准确的显著性图。实验结果表明,我们的方法在 VOS、DAVIS 和 FBMS 三个公共基准测试数据集上均明显优于所有最先进的全监督方法。
Aug, 2019
我们提出了一种多视角伪标记方法来进行视频学习,它利用外观和运动信息的互补视角进行半监督学习,以获取更可靠的伪标签并比纯监督数据学习更强的视频表示。我们的方法在多个视频识别数据集上大大优于其监督对应方法,并在自监督视频表示学习的标准基准测试中与先前的工作相比具有竞争优势,同时仍然训练一个共享外观和运动输入的模型,因此在推理时间不会产生额外的计算开销。
Apr, 2021
提出了一种基于弱监督分层强化学习框架的视频摘要算法,该算法将任务分解为多个子任务,通过训练管理器网络为每个子任务设置子目标,在此基础上使用策略梯度预测视频帧的重要性得分,通过定义的子奖励和全局奖励来解决稀疏问题,并在两个基准数据集上实验证明其具有最佳性能。
Jan, 2020
本文提出了一种基于无监督自学习框架的视频场景分割算法,采用三种新颖的边界感知预训练任务 (SSM, CGM, PP),重点在于设计有效的预训练任务,通过广泛的实验结果表明,预训练和转移环境表示对于改善视频场景分割性能至关重要,并实现了 MovieNet-SSeg 基准测试的最新最好成绩。
Jan, 2022