LIVE: LaTex 交互式可视化编辑
本文提出了一个通用的交互式故事可视化系统,该系统涵盖了故事到提示生成,文本到布局生成,可控文本到图像生成和图像到视频动画四个组件,允许用户处理多个新角色和灵活修改布局与结构。
May, 2023
通过 LivePhoto 系统,使用者可以通过文本描述来为感兴趣的图像添加动画效果,系统通过改进的生成器和设计的训练流程,实现了文本到视频的解码,进而实现了对视频的自定义。
Dec, 2023
提出了一种名为 ClickDiffusion 的系统,结合自然语言指令和用户通过直接操作界面提供的可视化反馈,将图像和多模态指令序列化为文本表示形式,以实现图像的精确变换和生成。
Apr, 2024
该论文提出一种名为 LIVE 的方法,利用预训练语言模型和图像生成模型相结合,使得模型可以像人一样通过想象场景帮助写作,该方法通过融合层实现了图像和文本的结合,并使用 CLIP 来确定文本能否调起想象力,实验表明该方法的有效性。
May, 2023
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022
本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统,使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量,成功地在我们的数据集中利用源图像和操作指令生成目标图像,从而实现更可控、更实用的自然语言条件下的图像生成。
Feb, 2018
本文介绍了一种用于零样本、文本驱动外观操作的方法,利用内部数据集训练生成器,结合外部的 CLIP 模型进行损失计算,并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。
Apr, 2022
这篇论文介绍了一种基于文本提示的区域图像编辑方法,无需用户提供的掩码或草图,通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域,实现了与当前图像生成模型兼容的灵活的编辑,并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致,具有高保真度和逼真度的竞争性表现。
Nov, 2023
本文介绍了一个交互式系统,使用户能够操作图像,探索深度学习图像分类器的稳健性和灵敏度,用户可以使用图像修复算法删除图像特征并实时获得新的分类,从而通过实验性地修改图像并观察模型的反应,提出各种 “如果” 的问题。我们的系统允许用户比较和对比人类和机器学习模型用于分类的图像区域,揭示了一系列惊人的结果,从可观的失败(例如,“水瓶” 图像在去除一个人后变成了 “音乐会” )到卓越的弹性(例如,“棒球选手” 图像即使没有手套或基座也能正确分类)。我们在 CVPR 会议上展示了我们的系统以供观众直播尝试,我们的系统在 https 网址上开源,视频演示可在此 https 网址上获得。
Jun, 2018