- 3DRealCar:一个自然环境中的 RGB-D 汽车数据集,具备 360 度视角
我们提出了第一个大规模的 3D 真实汽车数据集,名为 3DRealCar,具有高容量、高质量和高多样性的特点,以及可用于改进与汽车相关的各种 2D 和 3D 任务的潜力。
- CVPRUVEB:面向实际水下视频增强的大规模基准和基线
通过构建第一个大规模高分辨率的水下视频增强基准 (UVEB),我们能够更有效地促进水下视觉的发展,并且我们提出的第一个有监督的水下视频增强方法 UVE-Net 通过充分利用水下视频的降质信息,实现了更好的视频增强效果。
- 推进阿拉伯语词网:提升内容质量
高质量的词网(WordNets)对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句,以及语言形态和语义的不完善等问题,我们对阿拉伯语 WordNet 进行了重大修订,更新了超过 58% 的同义词集。通过 - 适用于所有人的配音:使用神经渲染先验进行高效配音
利用数据效率的神经渲染先验和神经纹理进行演员特定的自适应,以达到高质量的视觉配音,只需几秒钟的数据即可实现,同时具有限数据的普遍性和可扩展性。
- CTNeRF:来自单眼视频的动态神经辉度场的跨时间变压器
我们的研究目标是从复杂动态场景的单目视频中生成高质量的新视图。为了解决过去方法在准确建模复杂物体运动方面的局限性,我们提出了一种新方法,结合了近期的广义 NeRF 和在时间和频率域中操作的模块,以改善动态场景的图像合成的精确度和视觉质量。
- 单细胞 RNA-seq 合成与潜在扩散模型
提出了一种基于扩散模型的全新方法 Single-Cell Latent Diffusion (SCLD),可以在一个统一的框架内合成大规模、高质量的单细胞 RNA 测序样本,包括整体和特定的细胞亚群,实验结果显示了其在细胞分类和数据分布距离 - SceneTex: 室内场景的高质量纹理合成基于扩散先验
SceneTex 是一种使用基于深度到图像扩散先验的方法,在室内场景中有效地生成高质量且样式一致的纹理。它通过在 RGB 空间中将纹理合成任务形式化为一个优化问题,正确反映了样式和几何一致性。SceneTex 通过多分辨率纹理场隐式编码网格 - 从单目视频中高质量可动画的动态服装重构
首次提出从单目视频中恢复高质量可动态调整的服装的方法,通过可学习的服装变形网络和多假设变形模块实现,实验结果表明可生成具有连贯表面细节的高质量动态服装,并可在未见过的姿势下轻松实现动画效果。
- TarGEN:大型语言模型的有针对性数据生成
通过使用 TarGEN 多步提示策略来生成高质量的合成数据集,结合自校正方法增强语言模型生成过程中的准确性,从而创建复杂和多样的基准测试数据集。
- AvatarVerse: 高质量 & 稳定的 3D 角色创建系统
从高度定制的文本描述和姿势指导中创建富有表达力、多样化和高质量的 3D 头像是一项具有挑战性的任务。我们提出了 AvatarVerse,一个稳定的流水线,可以仅仅通过文本描述和姿势指导生成富有表达力和高质量的 3D 头像。
- ProDiff:高质量语音合成的渐进式快速扩散模型
本文提出了一种名为 ProDiff 的文本到语音模型,它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数,从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成,相 - 基于标志物辅助的 CycleGAN 卡通人脸生成
使用未成对的训练数据和特征点辅助的 CycleGAN,我们能够高质量地生成漫画面孔,这些面孔几乎无法与艺术家绘制的面孔区分,这种方法建立在面部结构的一致性基础上。
- PasteGAN: 从场景图生成图像的半参数方法
提出了一种名为 PasteGAN 的半参数方法,结合场景图和图像裁剪来生成具有所需对象和丰富交互的图像,使用 Crop Refining Network 和 Object-Image Fuser 设计算法来增强对象间的交互,并设计了 Cro - ECCV高质量图像翻译的判别性区域建议对抗网络
本文介绍了一种基于 DRPAN 的高质量图像到图像翻译模型,该模型将图像到图像翻译任务分解为三个步骤:生成一个具有全局结构但含有某些局部伪迹的图像(通过 GAN),然后使用 DRPnet 提出图像中最伪造的区域,并在最伪造的区域上通过修正器