- PNeRV: 用于视频的多项式神经表示
通过引入多项式神经网络,本研究提出了一种针对视频的参数高效、面片级内隐神经表示的方法(PNeRV),该方法在保留空间连续性的同时,充分利用了连续时间的模糊能力,解决了视频数据领域内内隐神经表示所面临的挑战,并为先进的视频处理和分析开辟了新的 - ICML视频 SALMONN:增强语音的视听大型语言模型
论文通过提出一种视频 - SALMONN 模型,利用音频 - 视觉大型语言模型(av-LLMs)实现视频处理,包括理解视觉帧序列、音频事件、音乐以及语音,并展示了超越其他 av-LLMs 的视频理解和推理能力。
- PrAViC:实时视频分类的概率适应框架
我们提出了一个适应在线分类问题的新颖、统一和基于理论的自适应框架,该框架旨在通过建立强大的数学基础来处理序列数据的分类,并在早期阶段返回结果,同时不影响准确性。
- DL-KDD: 暗光条件下行动识别的双光知识蒸馏
我们提出了一种新颖的师生视频分类框架 DL-KDD,它能够在不引入额外计算成本的情况下,从原始和增强视频中学习,通过知识蒸馏策略训练师傅模型和学生模型,使学生模型在推理过程中仅使用原始输入视频来预测动作,实验证实了这种蒸馏策略在暗光环境下人 - 视频序列定量评估的照明直方图一致性度量
该研究提出了一种量化和自动评估视频序列的照明一致性的照明直方图一致性(IHC)度量,通过测量视频序列中每个帧与平均照明直方图之间的差异来表示照明变化,以此评估深度生成模型在视频处理中的性能和能力。
- CVPR使用有条件解码器增强视频的神经表示
通过引入条件解码器与熵最小化技术,该研究提出了一种通用增强框架,成功提升了隐式神经表示在视频存储与处理中的效果,并在多个基线模型上展现了优越的重建质量和收敛速度,为视频回归、修复和插值任务提供了一种强大的技术。
- 事件相机数据的时空处理:延迟回路蓄水池神经网络
本研究提出了一个时空模型,应用于处理事件摄像机视频,并验证了该模型的 “时空猜想”,即视频信号的时间表示中携带着重要信息,并且机器学习算法将从空间和时间组件的分开优化中受益。研究结果显示,与空间组件相比,时间组件携带着重要的互信息,为事件摄 - FastBlend:一个强大的无需模型的工具包,使视频图像风格化更加简单
通过提出名为 FastBlend 的无模型工具包来解决视频处理中的一致性问题,该工具包基于补丁匹配算法,并设计了两种推断模式:混合模式和插值模式。在混合模式下,FastBlend 通过在滑动窗口内混合帧来消除视频闪烁,并针对不同的应用场景优 - 基于兴趣区域(ROI)的自适应跨层实时视频流传输系统用于车载自组织网络(VANETs)
提出了在车辆环境中通过提高端到端视频传输质量来加强车辆应用中对视频获取和处理的依赖的算法。通过在 IEEE 802.11p MAC 层应用感兴趣区域 (ROI) 视觉数据包的自适应跨层映射,优先处理基于驾驶环境感知的场景 ROI 部分。在实 - 羽毛球击打事件检测的新视角
本研究提出了一种基于深度学习模型 SwingNet 和视频处理技术来识别羽毛球击打事件的方法,该方法不仅提供了一种直观和用户友好的方法,还为检测羽毛球击打事件带来了崭新的视角。
- 珍惜所拥有的:利用深度神经网络中的相似性进行高效视频处理
本文提出了一种基于相似度的训练方法,利用视频帧中的数据冗余来实现高效处理,适用于实时视频处理应用。通过引入分层的正则化,提高了计算复用并增加了训练期间权重的相似性,该方法在车道检测和场景分割等关键实时应用中获得了较高的压缩比和加速比,同时保 - AVFace: 面向详细的音频视觉 4D 人脸重建
该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建,并使用 AVFace 技术准确地重构任何人的面部和唇部运动,而无需任何 3D 地面真实测试。
- ECCV基于变压器的视频修补中利用光流指导
提出 Flow-guided transformer plus (FGT++) 模型,通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式,提高视频修复的效率与效果。
- MM高效视频分类的深度非监督关键帧提取
本文提出了一种基于 CNN 和 TSDPC 的无监督关键帧检索方法,能够自动计算关键帧数量并保留视频时间信息,此外,还加入了 LSTM 网络和权重融合策略来提升分类性能和效率,并在两个常用数据集上进行了评估,结果表明与现有方法相比,该方法具 - ECCVRayTran:基于光线追踪变换器的多物体视频姿态估计和形状重建
提出了一种基于 Transformer 的神经网络体系结构,用于从 RGB 视频进行多物体 3D 重建和检测,通过全局 3D feature 网格和特定于视图的 2D 网格交替表示其知识,利用关于图像形成过程的知识来显着减少注意力权重,附加 - 学习时空下采样以实现有效的视频提升
本文提出了一个神经网络框架,该框架能够联合学习时空下采样和上采样,并提出了两个新模块以解决时空去混叠问题和提高重建性能。实验证明,该方法显著提高了时空重构质量,并且能够应用于任意视频重采样、模糊帧重建和高效视频存储。
- 基于 Transformer 的视频语言预训练调查
本文综述了基于 Transformer 的预训练方法在视频语言学习方面的应用,包括代理任务、下游任务和常用视频数据集,将 Transformer 模型分为单流和多流结构,并比较它们的性能。最后,我们分析和讨论了当前挑战和了可能的未来研究方向 - ICCVBlockCopy: 基于块稀疏特征传播和在线策略的高分辨率视频处理
本文提出 BlockCopy 方案,通过轻量级策略网络和自定义块稀疏卷积的方式,在保证推理准确性的前提下,在处理视频时加速了预训练的基于帧的 CNN,取得了显著的 FLOPS 节省和推理加速。
- 基于采样的场景空间视频处理
本文提出了一种基于采样的新型视频处理框架,旨在实现高质量的场景空间视觉效果,通过像素采样和过滤的方法,针对深度和摄像头姿态估计不可避免的误差问题进行解决,该方法可以广泛地应用于包括降噪,去模糊,爆炸物识别等视频处理领域。
- BSUV-Net 2.0:面向视频独立监督背景减除的时空数据增强
该研究提出一种基于深度学习和时空数据增强的背景减除算法,该算法在跨视频数据集上达到了较高的性能表现。