- MM高视觉保真度学习视频压缩
通过设计自信度基于的特征重建方法和周期性补偿损失,本文提出了一种新颖的高视觉保真度学习视频压缩框架 (HVFVC),以解决学习视频压缩中的重建问题和优化缺陷,实现了出色的感知质量,并仅需占最新 VVC 标准的 50% 比特率。
- 标签高效的视觉错误检测的弱监督方法
利用无标签游戏过程和领域特定增强方法生成预训练或多任务设置中使用的自我监督目标数据集,以解决传统测试方法在检测视频游戏中潜在错误方面的困难。通过弱监督方法扩大数据集规模,并结合无监督聚类和基于文本和几何提示的交互方法,有效提高了对大型视觉错 - 细节保留图像去噪的重建生成扩散模型
提出了一种称为重建生成扩散模型 (RnG) 的新方法,该方法利用重建去噪网络恢复绝大部分底层干净信号,并采用扩散算法生成剩余的高频细节,从而提高视觉质量和感知度。通过在合成和真实去噪数据集上进行广泛实验验证了该方法的优越性。
- 可转移的对抗性攻击图像篡改定位
本文提出了一种对现有数字图像篡改定位算法进行真实世界应用安全性评估的对抗性攻击方案,通过基于优化和梯度的敌对示例的白盒和黑盒攻击来揭示这种篡改定位器的可靠性,从而准确预测篡改区域并保持高视觉质量的同时,大大降低了定位精度。
- 提高面部识别对抗攻击的视觉质量和可传递性,并同时进行对抗恢复
通过使用人脸修复潜在扩散模型先验,我们提出了一种名为对抗修复(AdvRestore)的新型对抗攻击方法,同时增强对抗人脸示例的视觉质量和可转移性。实验证明了我们提出的攻击方法的有效性。
- 基于大规模真实世界数据集和频率感知阴影消除网络的高分辨率文件阴影去除
通过使用大规模真实世界数据集和设计精心的频率感知网络,我们直接处理高分辨率文件阴影去除,并呈现出比以前方法更好的视觉效果和数值结果。
- MM使用流变换器进行视频帧插值
我们提出了一种视频帧插值流 Transformer 的方法,通过将运动动态从光流中引入自注意机制,使得我们的框架适用于插值具有大运动的帧,同时保持相对较低的复杂性,并通过构建多尺度架构来提高整体性能,实验证明该方法能够生成比现有方法更好视觉 - TokenFlow:一致扩散特征用于一致视频编辑
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
- ICCV堵塞泄漏:通过防止无意的信息传递推进基于音频的说话人脸生成
利用给定的音频和参考帧生成口型同步、逼真的人脸视频是一项重要任务,其中的关键挑战涉及生成图像的整体视觉质量以及嘴部的音频 - 视频同步。本文首先指出了最近几种音频驱动人脸生成方法中同步方法存在的问题,包括从参考图像到生成图像的唇部和姿势信息 - 低分辨率指导下的领域无关图像翻译
本论文提出了一种面向细粒度问题的无域图像转换方法,其使用一种全新的方法生成图像,这种方法集中在从源图像提取视觉特征并与低频信息相结合,以生成符合期望的输出图像,该方法在处理面向细粒度问题的图像转换任务时能够生成更真实的图像样本。
- 利用面部解析信息进行超分辨率人脸图像处理
本文提出了一种基于分析图引导的面部超分辨率网络,通过多尺度精化块维护和利用空间和上下文信息来改善可视效果,并在定量指标和视觉质量方面优于现有技术。
- 生成式评估的反事实编辑
提出了一种基于概念而非像素的生成模型评估和解释框架,通过知识驱动的反事实编辑帮助生成图像接近其地面实况条件,并且全局解释能够反映模型无法完全生成的概念和属性,该框架适用于故事可视化和场景合成等繁重任务。
- CVPR离散单点攻击不够:面部识别的广义流形对抗攻击
通过将攻击面扩展到多个目标,将生成的对抗性样本的通用化能力提高到更高的水平,并通过利用面部表情变化的连续性扩展攻击空间,从而提高攻击效果以实现更高的视觉质量。
- VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术
VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频,其中包括三个连续的步骤:生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤,且不需要任何用户干预 - 低比特率下基于 AI 的视频会议人脸增强技术
提出一种名为 FAIVConf 的视频压缩框架,基于有效的神经人脸生成技术实现,通过获取和保持面部特征进行背景动画避免伪影、面部失焦降低传输比特率、动态源更新进行面部视图插值等多种设计,取得了较大的码率降低和更好的视觉质量。
- ECCVStripformer:用于快速图像去模糊的条形变压器
本文介绍了一种基于 transformer 的深度学习架构 Stripformer,用于去除动态场景下照片中的运动模糊,相较于传统的 transformer 具有更高效的运行速度和更好的表现效果。
- 神经元邻居风格迁移
本文介绍了神经邻域风格迁移(NNST)方法,通过替换从风格示例图像中提取的神经特征,以及基于这些重新排列的特征合成最终输出,从而显著提高了最终视觉质量。
- Plenoxels:无需神经网络实现的辐射场
Plenoxels 是一种用于光线追踪的系统,将场景表示为一个稀疏的 3D 网格模型,并通过梯度方法和正则化优化,能够实现与神经辐射场相当的质量,却快 100 倍。
- 单镜头域自适应的域间差异控制:一个生成对抗网络方法
介绍了一种用于一次性域自适应的新方法,使用训练有素的 GAN 可以在域 A 和域 B 中生成图像,通过提出的算法可以将训练有素的 GAN 的任何输出从域 A 转换到域 B,相对于目前的技术水平,该解决方案有两个主要优点:首先,我们的解决方案 - ECCV使用 GAN 进行神经视频压缩,进行细节合成和传播
我们提出了一种基于生成对抗网络(GANs)的神经视频压缩方法,它在用户研究中明显优于以前的神经和非神经视频压缩方法,并为神经方法的视觉质量设定了新的最新技术。我们表明 GAN 损失对于获得这种高视觉质量是至关重要的,并通过用户研究验证了这种