具有显式抽象控制的有条件人类草图合成
本文提出了第一种基于笔画级别的速写抽象模型,并通过强化学习训练了一个笔画去除策略,该模型能够用于各种速写分析任务,包括建模笔画显著性、合成具有可变抽象度的速写以及使用仅照片训练细粒度速写检索模型。
Apr, 2018
通过揭示素描在扩散模型中的潜力,解决了生成人工智能直接素描控制的虚假承诺。我们巧妙地实现了专业素描生成精确图片的民主化过程,证实现有模型变形的空间限制性问题。为了纠正这个问题,我们提出了一种意识到抽象的框架,利用素描适配器,自适应时间步骤采样和经过预训练的精细化素描图像检索模型的辨别引导,协同工作以加强细粒度素描照片关联性。我们的方法在推理过程中无缝运行,无需文本提示;一张简单的草图就像你和我都可以创建的草图一样,就足够了!我们欢迎大家查看论文及其附加资料中展示的结果。贡献包括专业素描生成的民主化控制、引入意识到抽象的框架和利用辨别引导,通过大量实验证实。
Mar, 2024
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
Nov, 2022
这项工作提出了 Sketch2Human,这是第一个通过语义草图(用于几何控制)和参考图像(用于外观控制)引导的可控全身人体图像生成系统。
Apr, 2024
文章提出了一种通过 decoder 使用 StyleGAN 训练生成更加真实的照片,并且通过 autoregressive sketch mapper 和 fine-grained discriminative loss 处理手绘人类草图,实现草图到照片的转化;实验结果展示了其可行性和有效性,同时通过草图检索出生成的照片实现了在草图界的突破。
Mar, 2023
本文首次研究了无监督的手绘草图到照片的合成,提出了一种两阶段翻译任务的方法,添加自监督去噪目标和注意力模块以处理抽象和风格差异,生成的图片忠实于草图且逼真的,并可实现基于草图的图像检索和捕捉人类视觉感知。
Sep, 2019
本文针对抽象对话摘要的质量和粒度控制问题,提出了一种包含两个主要组成部分和阶段的模型,实现了基于伪标注疑问代词类别和基于组成句法分析提取关键词短语生成初步摘要,并通过自动确定或控制源文本中不同文本片段预测和突出显示给定对话的生成摘要句子数量。在最大的对话摘要语料库 SAMSum 上表现出优越性能,达到了 50.79 的 ROUGE-L 评分,并展示了竞争性高的人类评估结果和可控制的效果。
May, 2021
我们提出了一种新颖的抽象感知的基于草图的图像检索框架,能够处理不同级别的草图抽象。通过学习抽象感知特征和粒度级别的抽象理解,我们的方法在标准的草图 - 图像检索任务以及早期检索、法医草图 - 照片匹配和风格不变检索等具有挑战性的场景中表现出色。
Mar, 2024
本文提出了一种新的基于素描图的自然照片综合方法,采用无监督学习,结合标准化模块提取参考照片、在训练中提供假素描照片对,以及两种主要成分:全局场景结构和低级视觉风格的组合。实验结果表明,该方法可以生成具有高保真度的真实感照片,并且在相应场景素描的编辑方面具有更高的细节度,优于其他基于照片综合的方法。
Sep, 2022