- 互动 3D:通过互动 3D 生成创造你想要的东西
通过增加用户交互能力,我们引入了 Interactive3D 框架,使得用户能够精确控制 3D 生成过程,从而显著提高 3D 生成的可控性和质量。
- 内容感知的深度自适应图像恢复
通过利用现有模型优先建立模块化管道来系统地恢复图像,而不是从头开始创建新的修复模型。使用物体特定级别的恢复,每个对象使用其对应的类别标签信息进行再生。方法的独特之处在于提供完全的用户控制,用户可以选择特定的恢复步骤模型,自定义步骤序列以满足 - 地形扩散网络:基于地质素描引导的气候感知地形生成
基于草图的地形生成方法中,我们提出了一种新的扩散网络方法,即地形扩散网络(TDN),它通过主动融入用户引导来增强可控性,同时考虑到河流、山脊、盆地和山峰等地形特征,生成更加逼真的地形。通过针对结构、中间和细粒度级别的多层去噪方案,以及引入预 - TokenFlow:一致扩散特征用于一致视频编辑
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
- Musika! 快速无限波形音乐生成
Musika 是一個快速的音樂生成系統,透過將 spectrogram 轉換成可逆表示並透過生成對抗網路以一個特定的音樂領域進行訓練,使用單一普通消費 GPU 進行訓練並能在消費 CPU 上以比實時更快的速度生成任意長度的音樂,並提供使用者 - 交互式人物控制的在线运动风格转移
本研究提出了一种基于神经网络的端到端模型,可在用户控制下实时生成和转换不同风格的运动,无需手工制作的相位特征,在游戏系统中易于训练和部署,并从实验三个方面,即准确性,灵活性和多样性进行了评估,表现出令人满意的结果。
- ICLRMIDI-DDSP: 通过分层建模详细控制音乐表演
本文介绍了一种多层次音乐乐器模型 MIDI-DDSP,该模型具有真实的神经音频合成和详细的用户控制能力,通过利用可解释的层次结构,提供了自下而上控制、优化、创造音乐的方式。
- CoNeRF: 可控神经辐射场
本文介绍了一种基于神经 3D 表示方法的场景可控制方法,该方法采用少量遮罩注释,将属性视为潜在变量,通过神经网络推断属性后控制场景属性,实现了场景的新视角和新属性渲染。
- SSSE: 高效地擦除训练过的机器学习模型中的样本
提出了一种高效且有效的样本删除算法 (SSSE), 该算法适用于广泛的机器学习模型,通过模型损失几何性质解决了目前样本删除瓶颈问题,并在三个数据集上取得了良好的删除效果。
- ICCV交互式场景生成中的物体属性和关系规定
通过输入场景图生成图片的方法,利用布局与外观的嵌入实现更好匹配、更高视觉质量和更复杂场景图的生成,还支持用户控制的多元化输出,包括从其他图片导入元素和在物体空间中导航选定外观原型。
- CVPR具有空间自适应规范化的语义图像合成
通过使用自适应规范化层来调整激活函数,我们提出了一种简单但有效的方法来合成具有输入语义布局的逼真图像,这种方法可以提高视觉保真度和与输入布局的对齐度,并允许用户控制语义和风格。
- Scribbler: 用草图和颜色控制深度图像合成
本文提出了一种基于深度对抗图像合成框架,结合草图轮廓和稀疏颜色笔画生成逼真的汽车、卧室或人脸。我们展示了一个基于草图的图像合成系统,允许用户在草图上涂鸦以指示所需对象的首选颜色。该网络是前向的,可以实时看到用户编辑的效果。与最近关于草图到图