- Autoregressive 生成模型视为基于能量的模型能够更优化
本文介绍了一种名为 E-ARM 的独特方法,用于训练自回归生成模型。该方法利用了 softmax 操作的额外自由度,使得自回归模型本身成为一种测量输入可能性的基于能量的模型,从而提高了自回归生成模型的效果,并减轻了暴露偏差问题和增加了时间上 - 时间上一致的语义视频编辑
本文提出一种简单而有效的方法来实现一致性视频编辑,通过优化潜在编码和预先训练的生成器,减少时间光度不一致,并在不同领域和 GAN 逆推技术上得到了有利的结果。
- 一分钱之价(视觉):自监督重建自然电影的脑活动
本文研究自我监督方法来重建 fMRI 记录的自然视频,通过编码和解码自然视频的循环一致性以及利用大量外部自然视频,在提高适用的训练数据、引入视频先验以及保持时序一致性等方面取得了重大突破,相比于传统的只依靠有限受监督数据的方法,本文所提出的 - CVPRTemporalUV:用时间连贯的 UV 坐标捕捉宽松服装
我们提出了一种新方法,用于生成松散衣服的时间连续的 UV 坐标,该方法可以捕捉松散的服装和头发,通过不同类型的可微分管道来学习图像和纹理之间的 UV 映射。相对于现有的方法,我们的方法能够减少动画新套装的计算工作量数倍,并且经证实其训练出来 - MobRecon:从单目图像中重建手部网格模型的移动设备友好算法
提出了一种单视图手部网格重建框架,采用 2D 编码和 3D 解码,结合了轻量级有效的堆叠结构和深度可分螺旋卷积的高精度和高速度,并通过特征提升模块实现 2D 和 3D 表示之间的桥梁。实验证明,该框架达到了优越的重建精度和时间上的一致性,具 - 带有时间指导的稳健高分辨率视频抠像
提出了一种实时、高分辨率、具有鲁棒性的人体视频抠像方法,该方法采用循环神经网络架构来利用视频的时间信息,提高了时间相干性和抠像质量,并采用了训练策略来增强网络的鲁棒性,不需要任何辅助输入,可广泛应用于现有人体抠像应用。
- ICCV探索时域一致性以提高视频人脸造假检测的泛化性能
本文探讨了利用时间上下文对视频中的脸部伪造进行检测的方法,并提出了一种新的端到端框架,包括全时卷积网络和时间变换网络,实验证明了该方法的有效性。
- 从野外单张图像中的姿势引导的人类动画
本文提出了一种新的姿态转换方法,通过使用组合神经网络,预测人的轮廓,服装标签和纹理,并在推理时利用训练有素的网络生成一个外观及其标签的统一表示,以对姿势变化做出响应,并使用背景完成外观的呈现,从而实现保留人物身份和外观,具有时间上的一致性和 - 实时本地化光真实视频风格转换
本文提出了一种基于深度神经网络的算法,通过将图像的语义有意义的本地区域的艺术风格转移至目标视频的本地区域,同时保持其照片般的逼真性,并通过噪声和时间损失来优化视频的语义标签和平滑转换风格,最终实现一种能够自动生成视觉媒体的风格迁移方法。
- 通过多通道相关性进行任意视频风格转移
提出了一种基于多通道校正网络(MCCNet)的视频风格迁移方法,利用输入内容特征和样本风格特征来实现有效的风格转移,保持输入视频的时间连续性。同时,在训练期间还引入了照明损失,以提高算法在复杂光照条件下的性能,定性和定量的评估结果都表明 M - ECCV利用时序相干性进行自监督单次视频再识别
本文提出了一种新的基于时间一致性递进学习的框架,利用自监督辅助任务来捕捉未被标记的轨迹之间的关系,从而更好地实现视频检索中的标记,相比现有技术提高了高达 8% 的未标记数据真实标记的准确性和重识别的性能。
- CVPR面向融合的点卷积在在线语义 3D 场景分割中的应用
该研究提出了一种基于动态数据结构的卷积方法,通过全局 - 本地树结构维护局部领域信息,以及增量坐标区间树实现快速点云插入和邻域查询,从而解决在线语义三维分割与 RGB-D 重建中的挑战,实现跨帧时间上的信息融合。
- ICCV视频主动学习的时间一致性
本文提出了一种基于时间相干性的新的主动学习方法,旨在利用物体检测的检测结果来定义一个图形模型,以最小化图形模型上定义的能量函数,从而提供假阳性和假阴性的估计。同时我们还引入了一个名为 SYNTHIA-AL 的合成视频数据集来评估在道路场景中 - 基于时间连贯性的动态场景通用重建
该论文介绍了一种不需要先验知识的方法,利用多视角相机从复杂动态场景中获取 4D 的、时间相干的场景模型的无监督重构,并通过应用于自由视角渲染和虚拟现实中,改善了非刚性对象分割和形状重构的精度。
- 宁静之云:用神经网络学习点云时空相干特征
研究介绍了一种用于 Lagrangian 形式下的点云的机器学习方法,该方法可以学习稳定和具有时间相关性的特征,以解决在这些方法中存在的固有问题,例如点云形成的 halo 结构。
- CVPR通过时间聚合和循环实现深度盲视频去马赛克
本文提出了一个基于编码器 - 解码器模型的快速视频字幕去除框架,使用多个源帧和残差连接来处理视频中的遮挡和缺失,进一步通过循环反馈实现对时间上的连续性和缺失像素位置的准确预测,实现了实时的视频去字幕操作。
- CVPRRVOS:端到端的循环神经网络用于视频对象分割
该研究提出了一种基于循环神经网络的视频多目标分割模型,实现了零样本学习和时间上的目标连贯性,此模型在 DAVIS-2017 和 YouTube-VOS 基准测试上取得了优异的表现,并且其推理时间比现有方法更快。
- 利用光流网络从短轴 Cine MRI 进行左心室分割:保留心动运动的时间连贯性
提出了一种基于卷积神经网络的新的左心室分割算法,能够充分利用心脏运动的时间一致性,从而显著提高左心室分割的精度。该算法在 Cardiac Atlas 数据库上进行了训练和测试,结果表明,在 Dice 系数和平均垂直距离等指标上都明显优于原有 - NIPSMaskRNN:实例级视频对象分割
本文提出了一种名为 MaskRNN 的递归神经网络方法,它在每帧中利用两个深度成像网络输出(二元分割网络和定位网络)进行目标实例的视频对象分割以获取长时序结构和剔除异常值,结果在 DAVIS-2016、DAVIS-2017 和 Segtra - 清理动作捕捉数据的深度循环框架
本文提出了一种利用时域相关性和关节相关性清理带噪声和不完整的运动捕捉数据的深度双向循环框架,并通过第二个双向网络对带有噪声和空缺的信号进行预处理,从周围上下文中合成缺失的帧。该方法不依赖于噪声分布的知识,处理多种类型的噪声和长空缺,并在各种