RenAIssance: 大型模型时代的 AI 文字到图像生成调查
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
通过调研文献并分析各项研究方法,该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法,包括数据预处理技术、神经网络类型以及评估指标。此外,论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言,这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。
Nov, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本研究通过对 14 名游戏专业人员进行语义结构化访谈,揭示了 TTIG 在游戏行业实践中的专业人士感知、采纳和使用的 12 个总体主题和 49 个子主题,可以用于促进该行业内的讨论、为政策制定人员提供信息以制定迫切需要的立法,并支持游戏、HCI 和 AI 领域的研究人员以支持 TTIG 的可持续、专业使用以造福人们和游戏文化艺术品。
Feb, 2023
改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架,提供了生成包含长且少见文本序列图像的新方法。
Mar, 2024
这篇综述论文提供了关于生成式 AI 扩散和传统模型的全面概述,主要介绍了它们的基本技术、在不同领域的应用以及所面临的挑战,旨在为研究人员和从业者提供全面了解,并激发未来在这个令人兴奋的人工智能领域的创新。
Feb, 2024
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024