- VP-LLM: 基于大型语言模型的文本驱动 3D 体积补全通过贴片处理
借助大型语言模型,在单个前向传递中,我们提出了一种 Volume Patch LLM (VP-LLM) 方法,用于对 3D 模型进行条件完成。我们的结果表明,LLMs 在理解复杂的文本指令和 3D 物体方面具有很强的能力,并且在生成质量方面 - 基于文本引导的可控网格精细化方法用于交互式三维建模
我们提出了一种新颖的技术,通过文本提示为输入的粗糙 3D 网格添加几何细节。我们的方法由三个阶段组成:首先,我们基于输入的粗糙几何和输入的文本提示生成一个与之相关的单视角 RGB 图像;其次,我们使用新颖的多视角法线生成架构共同生成六个不同 - 探索文本到图像扩散模型的工作机制
通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态,发现图像在早期生成阶段主要由文本引导完成,之后概率模型通过自身信息来完善生成图像的细节,并进一步提出了去除文本引导以加速 T2I 生成过程的方法,加速效果达到 25%+
- VectorPainter:一种用矢量化笔触合成样式化矢量图形的新方法
提出一种名为 VectorPainter 的新方法,用于合成风格化矢量图形,并通过对参考图像进行矢量化笔画的重新排列,使其在内容上与文本提示对齐并保持风格上的忠实;通过引入新的风格保持损失,确保与参考风格的一致性。
- 文本提示下的语音属性编辑
该论文提出了一个新颖的任务:在文本提示下进行声音特性编辑,目标是根据文本提示中描述的动作对声音特性进行相对修改。为了解决这个任务,提出了一种名为 VoxEditor 的端到端生成模型,其中设计了一个 Residual Memory(ResM - 利用生成扩散先验想象进行人体修复
人体复原技术在各种与人体相关的应用中起着至关重要的作用。本研究提出了一种新颖的方法,通过构建人体感知扩散模型,利用领域特定知识来提高性能。通过预训练的身体注意模块来引导扩散模型在前景上的聚焦,解决主体和背景之间的混合问题。同时,通过无缝地结 - ReGround: 提升文本和空间定位的无成本方法
通过改变网络架构,将分布式注意力和交叉注意力从串行变为并行,可以显著减少文本和空间对齐之间的权衡。
- CVPR一个提示词足以提升预训练视觉语言模型的对抗鲁棒性
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
- 剪切和拼贴:主题驱动的视频编辑与注意力控制
本文提出了一种名为剪贴的创新框架,用于根据文本提示和额外参考图像进行现实语义视频编辑。
- MM逐步文本到图像生成的序贯语义生成通信
该论文提出了一种新的通信系统框架,利用多模式生成模型的优势生成有前途的代沟能力。我们的主要研究方向是基于图像到文本转换和顺序传输单词令牌的通信系统设计,旨在为实际通信系统利用最先进的生成模型铺平新的道路。
- StyleAdapter:一种适用于风格化图像生成的单通道无 LORA 模型
该研究提出了一种无需 LoRA 的方法,用于风格化图像生成,通过使用文本提示和风格参考图像作为输入,以单次传递生成输出图像。使用统一模型,该方法能够适应多种风格,但面临两个挑战:1)提示在生成内容上失去可控性,2)输出图像同时继承了风格参考 - 概念游戏特征生成与推荐系统初步研究
本研究介绍了一种基于文本提示生成游戏特性建议的系统。通过训练小型 GLoVe 模型的单词嵌入来提取特性和实体,并通过生成模型生成用户提示的新特性。通过对使用精调的 GPT-2 模型、使用 ConceptNet 的模型和人工创作的游戏特性生成 - DITTO-NeRF: 基于扩散的迭代文本到全向 3D 模型
提出了一种名为 DITTO-NeRF 的新型流水线,用于从文本提示或单个图像生成高质量的 3D NeRF 模型,并通过逐步重建规模、角度和遮罩等方案来解决 Image-to-3D 方法的低对应性和多视图一致性的问题,在保留微小边界角度信息的 - AAAICoP: 控制好偏好的事实不一致检测
该研究介绍了一种无监督的框架 CoP,通过使用文本提示,控制 Summarization 模型的偏好,从而检测出摘要与源文档之间的一致性问题,并在监督学习中进一步优化这个过程。
- 使用预训练的图文模型从文本生成带纹理的三维模型
基于预训练的 CLIP 模型,我们提出了一种从输入的文本提示中生成 3D 模型的零样本生成技术。通过对网格参数的优化,我们可以直接生成形状、纹理或两者,而无需进行培训。
- StyleGAN-NADA:基于 CLIP 引导的图像生成器域自适应
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练