在线模型蒸馏以提高视频推断的效率

Dec, 2018

在线模型蒸馏以提高视频推断的效率

Online Model Distillation for Efficient Video Inference

Ravi Teja Mullapudi, Steven Chen, Keyi Zhang, Deva Ramanan, Kayvon Fatahalian

TL;DR该文研究使用模型蒸馏技术将低成本的语义分割模型专门应用于目标视频流，使模型接近高成本模型的准确性，并在推断运行时具有更低的成本以及更好的稳定性。

Abstract

High-quality computer vision models typically address the problem of understanding the general distribution of real-world images. However, most cameras observe only a very small fraction of this distribution. This offers the possibility of achieving more efficient inference by speciali

computer vision models model distillation semantic segmentation low-cost models video stream

发现论文，激发创造

可扩展流基主动蒸馏的相机聚类

我们提出了一个可扩展的框架，用于设计高效的轻量级视频目标检测模型，利用自训练和知识蒸馏技术。我们研究了从视频流中选择训练图像的理想方法和跨多个摄像头分享模型的效果。通过提倡一种摄像头聚类方法，我们旨在减少训练所需的模型数量，同时增加蒸馏数据集。研究结果表明，适当的摄像头聚类显著提高了蒸馏模型的准确性，超过了为每个摄像头使用不同模型或在聚合的摄像头数据上训练的通用模型的方法。

Apr, 2024

多教师渐进蒸馏的轻量级目标检测学习

对于计算和内存资源有限的感知系统，我们提出了一种简单但非常有效的序列化方法来通过知识蒸馏来提高轻量级分类模型的性能，并成功将基于 Transformer 的教师检测器的知识转化到基于卷积的学生检测器上，从而显著提升了 MS COCO 基准测试上 RetinaNet 和 Mask R-CNN 的性能。

Aug, 2023

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

MobileVOS：实时视频目标分割，对比学习与知识蒸馏相遇

本文提出一种基于知识蒸馏与像素对比学习相结合的理论框架并使用有限内存的小型空时存储网络，实现在资源受限的设备上进行半监督视频对象分割任务，与最先进的模型相比取得竞争性的 J＆F 评估结果，但计算成本只有最先进模型的一小部分，在三星 Galaxy S22 上每帧计算 32 毫秒，并验证了该理论框架在标准 DAVIS 和 YouTube 基准测试上的有效性。

Mar, 2023

使用精简强化的模型进行 Tracker 追踪

本文提出了一种新的视觉目标跟踪模型，通过知识蒸馏和强化学习训练了一个紧凑的学生模型，可以从其他跟踪器中传输和压缩跟踪知识，并利用在线学习的评估措施，建立一个快速、简单且有效的跟踪机制使得最终跟踪器与实时最先进的跟踪器具有相同的竞争力。

Jul, 2020

教师学生网络在视频分类中使用较少的帧数

本文主要介绍了利用蒸馏的思想来缩短视频分类问题的计算时间。通过建立师生网络，使得其中的学生网络只需要处理视频片段的一小部分，便能取得与完整视频相同水平的分类表现，从而使得在验证期推断时能够获得 30% 的时间节约。

May, 2018

遮蔽视频蒸馏：重新思考遮蔽特征建模，以进行自监督视频表示学习

本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD)，并采用空间 - 时间共同教学方法进行电影变换器的预训练，实验证明该方法对于多个视频数据集优于现有方法。

Dec, 2022

利用掩码特征重建提炼三维物体检测的时间知识

通过知识蒸馏，从少量的帧中获取来自教师探测器的长期记忆，以平衡鸟瞰图 3D 目标检测中的精确性和效率，并通过生成器产生用于重建学生特征的新特征。在学生模型中输入完整帧时还探索了时间关系知识。在 nuScenes 基准测试上验证了该方法的有效性，并取得了 + 1.6 mAP 和 + 1.1 NDS 的改进，压缩时间知识后大约提高了 6 FPS 的速度，并实现了最准确的速度估计。

Jan, 2024

视频场景全面理解的精简语义

本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议，能够同时学习单目摄像机所需的几何、运动和语义信息，从而实现对整个场景的全面识别。实验结果表明，该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现，并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。

Mar, 2020

流媒体传播：使用传播模型进行在线视频编辑

我们提出了一种名为在线视频编辑的新任务，旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion（SVDiff）来解决此问题，它将紧凑的空间感知时间回归与现成的稳定扩散相结合，并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置，我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明，我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度，对于长时间、高质量的视频编辑表现出色。

May, 2024