visual generation | BriefGPT

关键词visual generation

搜索结果 - 5

音频同步视觉动画
当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。
PDF4 months ago
LayoutGPT：大型语言模型的构成性可视化规划与生成
LayoutGPT 是一种利用 LLMS 生成样式表语言的方法，能够生成多个视觉域中的可信布局，包括三维室内场景；当与下游图像生成模型相结合时，比文本到图像模型系统表现更好，并可在正确性方面与人类用户进行比较，同时在 3D 室内场景合成方面
PDFa year ago
嵌入空间中的命名概念
本文提出了一种通过生成特定概念并将其用于多个图像来提高控制能力的方法，通过仅使用文本就可以生成概念而无需从输入数据复制可视化，并通过一组比较发现我们的方法是超越仅使用文本提示的重要改进。
PDFa year ago
ECCV可组合扩散模型下的组合视觉生成
通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。
PDF2 years ago
CVPR多变图像合成的调制对比度
本文提出使用图像对比度来学习一个经校准的度量标准，其通过对于锚点的负样本的相似度进行自适应的重新加权，并使用最优传输协作地跨多个对比度目标来调节负样本的推力。在多个图像转换任务上的实验表明，所提出的 MoNCE 显著优于其他流行的图像度量标
PDF2 years ago