关键词text-based image generation
搜索结果 - 3
- 激发视觉创造力:图像编辑建议的视觉语言助手
该研究论文介绍了图像编辑推荐任务,通过 Creativity-Vision Language Assistant 的训练和编辑指令数据集的提供,实现了从输入图像和简单提示生成多样创意编辑指令的目标。通过引入新颖的 ' 用于本地化的标记 ' - 谓词扩散:基于谓词逻辑的文本到图像扩散模型的注意力引导
在这篇论文中,我们提出了一种称为预测扩散的统一框架来表达用户的意图,通过使用谓词逻辑将文本中的预期含义表示为命题,并将注意力图中的像素视为模糊谓词,以获取使图像满足命题的可微损失函数。与多种现有方法相比,我们证明了预测扩散能够生成更符合不同 - 无 Token 留存:可解释性辅助的图像分类与生成
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在