- CVPR通过运动解耦扩散模型生成共说手势视频
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实 - 抗遮挡的三维人体姿势估计
通过使用空时图形来表示变形的人体,并引入一个细化网络,该网络在此图形上执行图形卷积以输出 3D 姿势,以确保对遮挡鲁棒性,通过使用一组二进制掩码训练此网络,并模拟某些关节在一段时间内可隐藏,并训练网络对此免疫,证明了该方法相对于从单摄像机序 - ICLR一种基于条件点扩散细化的三维点云完整性修复范式
本文提出了一种基于点扩散和精化的点云补全范式,其中条件生成网络使用去噪扩散概率模型生成粗糙补全, 精修网络进一步改进完成后的点云的质量,并开发了一个新的双向路径架构。 这种架构既能从部分观察到的点云中有效地提取多级特征以指导补全,也能准确地 - MMNeRF-SR:使用超采样的高质量神经辐射场
NeRF-SR 是一种高分辨率、低分辨率输入的新视角综合解决方案,基于神经放射场,利用超采样策略和改进网络,在没有外部信息的情况下,实现了高质量的新视角合成。
- ICCV高质量分离显著对象检测
本文提出一种新的深度学习框架,用于高分辨率显著目标检测任务,该框架将任务分离成低分辨率显著性分类网络(LRSCN)和高分辨率细化网络(HRRN),实现低分辨率感知和高分辨率精细调整的显著目标检测,基于此框架的实验结果表明,本文所提方法在高分 - CVPR立体匹配分解模型
本文提出了一种分解模型来解决在分辨率提高时计算成本(时间和内存成本)过高的立体匹配问题,该模型仅在很低的分辨率下运行密集匹配,使用不同的高分辨率下的稀疏匹配来逐步恢复失去细节的视差,并通过一个有遮挡感知掩码迭代地融合相邻尺度上的稀疏和密集视 - CVPR利用低分辨率光流和掩膜上采样的高效空时视频超分辨率
本文提出了一种高效的时空超分辨率方法,结合视频超分辨率和视频帧插值模型,通过利用二次建模的低分辨率空间插值和基于双线性上采样的高分辨率合成方法,在 REDS STSR 验证集中优于当前最先进的模型。
- CVPRZoom-to-Inpaint:具备高频细节的图像修复算法
本文提出一种将超分辨率应用于粗略重建输出并在高分辨率下进行细化,然后将输出缩小到原始分辨率的框架,以提高高频细节的重建效果,同时采用渐进式学习技术来辅助大空缺区域的训练,获得了比现有最佳方法更好的表现。
- CVPRPatch2Pix: 基于极线引导的像素级对应
本文提出了基于检测再细化的新视角来估计对应关系,并介绍了一种新颖的细化网络 Patch2Pix,它通过对匹配传播的精细调整和置信度分数的拒绝来提高对应关系网络的性能,实现了图像匹配、单应性估计和定位任务的最优性能。
- CVPR点云完整性的级联细化网络
提出了一种级联细化网络结合粗到细的策略,通过考虑局部输入的细节和全局形状信息,保留了不完整点集中的现有细节,生成高保真度的缺失部分,并设计了一个补丁鉴别器来学习复杂的点分布,实验结果表明在 3D 点云完成任务中,我们的方法优于现有最先进的方 - 迭代结构细化进行的语义角色标注
该文介绍了一种用于语义角色标注(SRL)的迭代优化方法及网络结构,通过建立非局部交互关系,有效提高了模型表现,在七种 CoNLL-2009 中取得了最优表现并在其中五种语言中的英语数据集上取得了最新的成果。
- 3DRegNet:一种用于三维点云配准的深度神经网络
介绍了 3DRegNet 技术,它是一种用于三维扫描配准的深度学习架构,基于点对应关系分类为内点 / 外点,回归运动参数,提供了两种替代方案,并提出了一种改进方法。该方法在两个数据集上对比了多个基线算法,包含源代码。
- 基于时间提案演化的精准时间动作定位
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优 - VITON: 基于图像的虚拟试衣网络
本研究提出了一个基于图像的 Virtual Try-On Network,采用 “粗到细” 的策略将所需的服装项目无缝地转移到相应的人体部位,从而合成真实的照片,不需要 3D 信息,并通过细化网络训练来改善初始模糊图像。