视频像素网络
本文介绍了一种深度神经网络模型,用于在两个空间维度上序列预测图像像素;该模型对图像的离散概率进行建模,并在深层循环网络中使用了快速的二维循环层和残差连接,实现了比以前的最新技术更好的自然图像日志似然度分数。
Jan, 2016
本文提出了一种新型的深度强化学习架构 Value Prediction Network,将无模型和有模型强化学习方法集成到一个神经网络中,它通过学习一个动态模型,预测未来价值而非未来观测,实验结果表明,VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点,此外,VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN),具有学习良好状态表示的潜力。
Jul, 2017
本论文探讨自然图像的概率模型,并通过引入辅助变量扩展了 PixelCNN 架构家族的自回归模型,提出了两个新的基于不同图像转换的生成式图像模型,包括图像的分辨率金字塔。该模型解决了现有 PixelCNN 模型的两个已知缺点,并表明其产生的图片样本更加真实。
Dec, 2016
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比,PVDM 在 FVD 评估指标上获得了最高的得分。
Feb, 2023
本文提出了 PixelMotionCNN 的概念,并采用基于学习的框架进行视频压缩,该框架包括迭代分析 / 综合,二值化等组件,实验结果表明该方案与 H.264 编解码器具有相当的性能表现,为未来视频编码的进一步提高压缩效率和 功能提供了可能的新方向。
Apr, 2018
本文介绍了一类因果视频理解模型,旨在通过最大化吞吐量、最小化延迟和减少时钟周期的数量来提高视频处理的效率,利用操作流水线和多速率时钟的优势,每个时间步对每个帧执行最少量的计算 (例如仅四个卷积层),以产生输出,通过将这些操作以流水线的方式进行深度并行计算,应用于现有图像架构并分析在两个视频任务上的行为:动作识别和人体关键点定位。结果表明,在几乎不损失性能的情况下,可以实现显著的并行性和速度提升。
Jun, 2018
提出了 Video-Pose Network (VPN) 用于识别日常活动,该模型包含两个不同的方向:一个是通过特征层面的蒸馏将 Pose 知识转移到 RGB 中,另一个是通过注意层面的蒸馏模仿姿势驱动的注意。该模型在 4 个公共数据集上表现出了高速且具有噪声姿势的鲁棒性。
May, 2021
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
本文提出一种新的 Video-Pose Network(VPN)框架,其中空间嵌入和注意力网络为其两个关键组成部分。在多个数据集上的实验证明,VPN 优于现有技术在动作识别方面的性能,并能更好地利用 ADL 的细微视觉模式来提高识别能力。
Jul, 2020