- 用于实时渲染超大数据集的分层三维高斯表示
通过使用层次结构的三维高斯,本研究提出了一种在非常大的场景中保持视觉质量的方法,同时提供了有效的远程内容的适当级别选择和平滑过渡的有效细节解决方案。
- 多摄像头环视系统的参数融合技术
在周视系统中,图像色彩和亮度由于多个相机各自应用自动白平衡(AWB)和全局色调映射(GTM),可能存在差异。为了改善拼接算法中相邻相机之间的颜色过渡,我们提出了一种调和算法,通过在拼接前调整多个相机的色彩和亮度,使拼接后的图像在相邻相机之间 - LRM-Zero:使用合成数据训练大型重建模型
我们提出了 LRM-Zero,它是一个完全基于合成 3D 数据进行训练的大型重建模型,可以实现高质量的稀疏视角 3D 重建。LRM-Zero 的核心是我们的程序化 3D 数据集 Zeroverse,它是通过简单的基本形状进行自动合成,并进行 - Ada-VE: 自适应运动先验的无需训练的一致性视频编辑
通过引入自适应的运动引导的跨帧注意机制,本文提出了一种显著降低计算复杂性的方法,同时保留语义细节和时间一致性,并通过 KV 缓存共享提高了中间帧质量和时间一致性,大大增加了联合编辑的关键帧数量,不受视觉质量和时间一致性的影响。
- CVPR增强式说话人脸视频生成与评估的音频视觉语音表示专家
使用 AV-HuBERT 进行口型同步损失的计算,并引入三种新的口型同步评估指标,以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。
- 自适应混合尺度特征融合网络用于盲目的人工智能生成图像质量评估
本文提出了一种针对 AI 生成图像的盲图像质量评估网络(AMFF-Net),从 “视觉质量”、“真实性” 和 “一致性” 三个维度评估 AI 生成图像的质量。通过多尺度输入策略和自适应特征融合 (AFF) 块,AMFF-Net 在盲图像质量 - UniFL:通过统一反馈学习改善稳定扩散
UniFL 是一个统一框架,利用反馈学习全面增强扩散模型,在提升生成模型质量和加速推理方面表现出优越性能。
- 压缩调制高动态范围视频的主观质量评价
对现有显示器不兼容的 HDR 视频进行色调映射处理以服务于 SDR 受限的用户,通过分析合成的 15,000 个经过主观质量注释的 HDR 视频数据库对色调映射算法的视觉质量进行评估和基准测试,为 HDR 视频的色调映射和质量评估领域带来显 - VideoMV:基於大型視頻生成模型的一致多視角生成
使用来自视频生成模型的图像,通过引入一种新的框架以及 3D 感知降噪采样策略,可以更快速地生成密集视图,提高图像的质量和一致性。
- AAAIPNeSM: 基于提示的神经风格映射的任意 3D 场景风格化
我们提出了一种新颖的 3D 场景风格化框架,可以将任意风格应用于任意场景,无需再训练。通过将 3D 场景的外观映射到 2D 风格模式空间并利用基于提示的 2D 风格化算法,我们实现了 3D 场景的几何和外观的完全分离,从而在视觉质量和泛化性 - IOI:一种对无参考图像和视频质量测评方法的隐形一遍攻击
本论文介绍一种针对无参考图像和视频质量度量的隐形一次迭代对抗性攻击方法,通过客观和主观测试,与八种先前方法进行比较,我们方法在各种被攻击的度量架构中表现出卓越的视觉质量,并同时保持可比较的攻击成功率和速度。
- Snap Video:用于文本到视频合成的缩放时空 Transformers
生成高质量、时空连贯、动作复杂的视频,提升图像模型的视频生成能力,并减少运算负载。
- 超越对抗扰动:借助流形辅助的具有合法语义的对抗样本
提出了一种有监督的语义转换生成模型,用于生成具有真实和合法语义的对抗性样本,实现了从非对抗性样本到对抗性样本的合法过渡。实验结果表明,生成的对抗性样本不仅具有更好的视觉质量,还实现了更高的攻击可迁移性和更有效的模型漏洞解释。
- 重新构想现实:视频修复技术的综合调研
这篇论文通过分析视频修复技术的最新进展,探讨了计算机视觉和人工智能中的一个关键领域。论文通过人工评估和计算资源比较综合考虑视觉质量和计算效率之间的平衡,并为未来探索这个充满活力和不断发展的领域提供了指导。
- 缩小图像编码与人类之间的差距
图像编码技术旨在降低图像表示所需的比特率,同时最大程度地减少机器视觉分析准确性的下降。本研究提出了一种基于对抗训练的有效解码器微调方案,以显著提高图像编码技术的视觉质量,同时保持机器分析准确性,无需在推理阶段增加额外的比特率或参数。实验结果 - DiT-Head:使用扩散变压器进行高分辨率说话人合成
我们提出了一种基于扩散变压器的新型对话头合成流程,利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性,可以推广到多个身份,同时产生高质量的结果。通过与现有的对话头合成方法进行比较,我们对我们提出的方法进行训练和评估,并展示了我 - GenTron:深入探究扩散变压器在图像和视频生成中的应用
该研究探索了用于图像和视频生成的基于 Transformer 的扩散模型,并介绍了 GenTron,它是一族使用基于 Transformer 的扩散的生成模型,扩展到文本到视频生成,并在人类评估中取得了显著的视觉质量改进。
- 缓存我如果你能:通过块缓存加速扩散模型
通过对网络层的行为研究,我们发现图像去噪网络中的许多层计算是多余的,基于此,引入块缓存以加快推理速度,并提出一种基于每个块变化的自动确定缓存调度的技术。在实验中,我们通过 FID、人工评估和定性分析展示了块缓存在保持相同计算成本的前提下生成 - 朝着无光晕的图像:一项调查
镜头光晕是一种常见的图像伪影,可以显著降低图像质量并影响计算机视觉系统的性能。本调查综述了镜头光晕的多方面领域,包括其基本物理、影响因素、类型和特征。研究了光晕形成的复杂光学机制,涉及镜头系统内部反射、散射、衍射和色散等因素。探讨了光晕的各 - 基于网格表示的三维手部姿势和网格估计的循环学习
通过回收学习策略加强合成手部网格表示,在提高 3D 手势姿态和网格估计方面取得了有效的自我改进。