- CVPR细节决定成败:适用于细节丰富的 StyleGAN 反向和高质量图像编辑的 StyleFeatureEditor
通过 StyleGAN 反演技术,我们介绍了一种名为 StyleFeatureEditor 的新方法,可以在 w-latents 和 F-latents 两个潜变量空间中进行编辑,实现了对细节的精确重建和修改。与现有的编码方法相比,我们的模 - 解释定制扩散模型的权重空间
通过创建超过 60,000 个基础模型,我们调查了一系列定制扩散模型的权重空间。这些模型是通过微调基本模型以插入不同人的视觉特征而创建的。我们将这些权重的潜在流形建模为一个子空间,我们称之为权重到权重。通过权重空间,我们展示了三个直接的应用 - CVPRICE-G: 3D 高斯 Blob 的图像条件编辑
通过引入新的方法,该研究论文介绍了一种从单个参考视图快速编辑 3D 模型的技术,其中包括分割编辑图像、使用 DINO 特征在选择的分割数据集视图之间匹配语义对应区域,并以语义合理的方式自动将编辑图像的特定区域的颜色或纹理变化应用于其他视图, - 使用扩展的注意力实现视频中的时态一致的对象编辑
使用预训练的图像修复扩散模型,通过替换自注意力模块以创建帧级依赖关系,我们提出了一种编辑视频的方法,以确保编辑信息在所有视频帧中保持一致,从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。
- 广角、3D 场景和视频的统一编辑通过解耦的自注意注入
通过利用基本的二维图像文本到图像扩散模型,我们提出了一种新颖的统一编辑框架,结合了单一图像注入自注意力的编辑和共享注意力的视频编辑的优势,通过共享自注意力特征在参考和连续图像采样过程中,设计了一种采样方法,以在保持语义一致性的同时实现连续图 - TIGER:基于文本指导的三维高斯检索与连贯编辑
本文提出了名为 TIGER 的一种系统方法,用于一致的文本指导下的 3D 高斯检索和编辑,通过采用自底向上的语言聚合策略来生成支持开放词汇检索的更密集的语言嵌入的 3D 高斯场景,并通过聚合 2D 图像编辑扩散模型和多视图扩散模型的一致性得 - 组合神经材质
使用组合神经模型全自动地表示纹理,通过编辑高斯文本在潜在空间中修改纹理,实现了纹理分析、建模和编辑的新技术,拓展了可控纹理的视觉吸引力图像的创作可能性。
- 定位,分配,细化:通过文本主题引导驯服定制图像修复
LAR-Gen 是一种图像修复方法,可以无缝地修复遮挡的场景图像,结合了文本提示和指定主题,通过粗到细的方式保证主题身份保持和本地语义一致性,并引入了一种新的数据构建流程来解决稀缺训练数据的问题,广泛的实验和各种应用场景展示了 LAR-Ge - 面部生成的可控语义潜在扩散模型
基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成(SIS)框架,通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息,允许对人脸的每个语义部分进行精确控制,从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先 - 模型编辑中的遗漏部分:对模型编辑带来的隐藏损害的深入探究
该论文提出了一种用于评估和缓解大型语言模型编辑中的涟漪效应的方法,通过引入 GORA 和 SORA 方法,实现了对模型编辑的量化评估,有效解决了当前模型编辑方法中存在的隐藏空间涟漪效应问题,推进了大型语言模型编辑技术的发展。
- M$^3$Face:一种统一的多模态多语言人脸生成与编辑框架
M3Face 是一个统一的多模态多语言框架,用于可控的人脸生成和编辑,它使用户能够仅通过文本输入来自动生成控制模态,如语义分割或面部标志,并随后生成人脸图像。
- Uni3D-LLM:利用大型语言模型统一点云感知、生成和编辑
通过 Uni3D-LLM,我们引入了一个统一框架,利用大型语言模型(LLM)在点云场景中整合了 3D 感知、生成和编辑任务,从而让用户能够轻松地根据自然语言描述在场景中生成和修改对象,显著提高操作的灵活性和可控性。
- 潜编辑器:基于文本驱动的 3D 场景局部编辑
通过引入 `LatentEditor` 框架,利用文本提示实现对神经场的精确和局部控制编辑,从而在潜空间中实现更快速、更适应性强的 3D 场景编辑。
- DragVideo: 交互式拖拽式视频编辑
通过采用与 DragGAN 相似的拖拽式用户交互来编辑视频内容并保持时间一致性的 DragVideo,通过优化视频 U-Net 生成的扩散视频潜变量来实现所需的控制,展示了拖拽式视频编辑的可适用性和通用性。
- 面向对象的图像编辑的反演与重组
通过对比编辑任务中的原始提示和目标提示,我们可以获得众多编辑对,每个对包含一个对象及其相应的编辑目标。为了在保持对输入图像的忠实度的同时允许可编辑性,现有的编辑方法通常涉及固定数量的反转步骤,将整个输入图像投射到其更嘈杂的潜在表示,然后由目 - EMNLPG-SPEED:通用稀疏高效编辑模型
通过单一模型实现多样化编辑需求并保持低计算成本,我们提出了 G-SPEED(General Sparse Efficient Editing Model),其中包括一种新颖的无监督文本编辑数据聚类算法和一种稀疏编辑模型架构,实验证明 G-S - EMNLP我们能编辑多模大语言模型吗?
本研究聚焦于编辑多模态大型语言模型(MLLMs),通过构建名为 MMEdit 的新基准测试和创新评估指标,以提供对多模态 LLMs 进行编辑的相关研究和改进效果的综合实验和分析,旨在为自然语言处理社区提供深入的见解。
- 神经冒名者:通过显式形状操作编辑神经辐射场
通过引入神经模拟者方法,将显式四面体网格与多重网格隐式场相结合,我们提出了一种有效编辑神经隐式场的方法,实现形状的变形、合成和生成,同时保持复杂的体积外观,展示了其在 3D 内容创作和操作领域的潜力。
- 直接反演:使用 3 行代码提升基于扩散的编辑
文本引导扩散模型通过分离源图像和目标扩散分支,实现图像编辑的内容保留和编辑保真度优化,通过三行代码实现的直接反演技术在编辑基准测试中表现出卓越的性能和极大的加速。
- FDLS:一种用于生成高质量、可控和可重定目标的面部表情的深度学习方法
Weta Digital 的 FDLS(Facial Deep Learning Solver)是解决创建逼真合成人物和转换演员表演至类人角色的复杂模型操控问题的解决方案,采用了粗粒度到细粒度和人工参与的策略,支持编辑和处理日常变化,以可靠