用于连续视频编辑的层状神经图谱
本研究提出了一种无监督的重建方法,从时间演变的点云序列中重建出具有时间一致性的表面序列,并使用神经网络表示重建的表面,通过构建规范对应关系,实现了跨帧的等距重建,达到了超过现有技术的无监督对应关系和表面重建精度的效果。
Apr, 2021
本文提出了一种用于动态场景实时视角合成的体积视频新表示法,通过使用浅层 MLP 网格和共享的 2D CNN 解码器动态预测 MLP 参数,显著提高了渲染速度并降低了存储成本,实验表明,该方法在渲染质量上实现了最先进的水平,同时能够通过 RTX 3090 GPU 以 41.7fps 的速度对 $512 imes 512$ 的图像实时渲染。
Apr, 2023
本文提出了一种可编辑的逼真的自由视角视频生成方法,通过使用只有 16 个稀疏摄像头,将大规模动态场景中的每个动态实体表示为连续函数,并采用新的分层神经表示方法进行支持感知和逼真操作,并提出使用场景解析 4D 标签地图追踪和连续变形模块隐式分离时间运动,同时采用面向对象的体积渲染方案进行了再组装所有神经层,并采用新颖的分层损失和运动感知射线采样策略,实现了大规模动态场景的高效训练,并支持各种编辑功能,显示了该方法生成高质量的可编辑的自由视角视频。
Apr, 2021
本文介绍了一种新的结构神经网络体系结构,能够将视频分解成自然层,并控制关注哪些分离的层,同时演示了该方法的有效性和使用情况,如去除反射和在杂乱场景中的动作识别。
Oct, 2019
本文提出一种基于学习的方法,通过引入新颖的不确定性捕获的 3D 卷积架构来实现多层视频表示,并训练这些模型以分离混合视频。实验表明,该方法在真实世界的视频上表现出良好的性能,并呈现出颜色恒定、分解阴影以及分离反射的有趣能力。
Dec, 2018
本文介绍了一种通过分层学习视频表示的方法来编辑或操作视频中不同个体的运动和动作,以达到减慢、加速或擦除人物等目的。该技术可以应用于复杂运动或多人参与的真实世界视频中,以生成高质量的效果。
Sep, 2020
本文介绍了 DeepATLAS 的基础模型,用于高维生物医学数据中的定位任务。通过自监督目标的收敛,预训练模型将输入映射到解剖一致的嵌入空间,从而可以用一次或少量迭代的方法识别任何点或点集(例如,盒子或分割)。在经过全面训练的 DeepATLAS 模型上,基于超过 50 个解剖结构的四个外部测试集表现出高的一次分割性能,匹配或超过了标准的监督学习模型的性能。通过添加少量的有标签数据,可以进一步提高准确性,使用半监督或更常规的微调策略。
Feb, 2024
我们提出了一种视频分解方法,可以对具有时空变化照明和运动效果的视频进行基于层次的编辑。我们的神经模型将输入视频分解为多个分层表示,其中包括 2D 纹理贴图、原始视频的掩码以及表征光照条件时空变化的乘法残差。通过对纹理贴图进行单个编辑,可以在整个视频帧的对应位置传播并保持其他内容的一致性。通过坐标哈希,我们的方法可以以每帧 25 秒的速度高效学习 1080p 视频的基于层次的神经表示,并在单个 GPU 上以 71 帧每秒的速度实时渲染编辑结果。在定性方面,我们运行该方法在各种视频上展示其生成高质量编辑效果的有效性。在定量方面,我们提出采用特征跟踪评估指标来客观评估视频编辑的一致性。
Sep, 2023
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024