Painter: 教授自回归语言模型绘制素描

Aug, 2023

Painter: 教授自回归语言模型绘制素描

Painter: Teaching Auto-regressive Language Models to Draw Sketches

Reza Pourreza, Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Pulkit Madan...

TL;DR通过生成对应的画笔笔触，我们应用大规模语言模型（LLMs）将用户的文本描述格式转化为草图，实现了自动一代图片生成的先驱性工作。

Abstract

large language models (llms) have made tremendous progress in natural language understanding and they have also been successfully adopted in other domains such as computer vision, robotics, reinforcement learning

large language models llms image generation virtual brush strokes painter

发现论文，激发创造

PIXAR: 像素空间中的自回归语言建模

PIXAR 是第一个基于像素的自回归型语言模型，它不依赖预定义的词汇表，可以用于自由形式的生成任务，并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练，PIXAR 的可读性和性能得到了显着提高，使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路，并对这些具有挑战性的任务中通常的符号输入表示（文本作为标记）的必要性提出了质疑。

Jan, 2024

画笔变换器：带有笔触预测的前馈神经绘画

本文提出了一种名为 Paint Transformer 的基于 Transformer 结构的神经网络框架，通过一个前馈网络来预测笔画集合的参数，从而实现在短时间内生成一个 512 * 512 的绘画。此外，作者设计了一个自学习流程，使其可以在没有任何预训练数据的情况下进行训练，并取得了比以往更好的绘画性能。

Aug, 2021

潜在扩散模型下的创意绘画

本研究采用基于自编码器的后向扩散模型和交叉注意力增强的 U-Net 来实现压缩潜在空间的图像生成，扩展了 LDMs 的创意绘画能力，包括文本条件扩展和模型重新训练，该方法使用 Wikiart 数据集进行新颖的绘画生成，并通过与原模型的直接比较表明创造力和艺术性得到了丰富的提高。

Sep, 2022

基于模型的深度强化学习绘画

通过在基于模型的深度强化学习中应用神经渲染器，我们展示了如何教授机器像人类画家一样用少量笔画来创作精美的油画。实验表明，不需要画家的经验或笔画跟踪数据，可以使用数百个笔画取得出色的视觉效果。

Mar, 2019

文本到艺术图像生成

通过神经网络，从文字描述生成一张与特定风格和流派匹配的艺术图片，为手残人士提供一种表达思想和创造的途径。

May, 2022

ProcessPainter: 从序列数据中学习绘画过程

通过合成数据预训练，在一组艺术家的绘画序列的细微调整下进行微调的文本到视频模型 ProcessPainter 首次成功地从文本提示生成了绘画过程。此外，引入了 Artwork Replication Network，能接受任意帧输入，促进了绘画过程的可控生成和艺术品的复制。本文提供了推动艺术教育和图像生成技术发展的新视角和工具。

Jun, 2024

结合语义指导与深度强化学习生成人类水平的绘画

提出了一种语义引导的有效的神经网络模型，利用二级绘画过程来区分前景和背景笔画方法，并通过使用领域定位和空间转换器网络来保证前景对象的位置和比例不变，最后通过最大化基于感兴趣对象的导引反向传播来放大感兴趣对象的差异特征，从而实现了对前景对象属性变化的处理，能够在多前景对象的真实世界和虚拟场景中产生高质量的图像。

Nov, 2020

智能绘画：发展类人绘画智能体

该论文提出了一种新的绘画方法 Intelli-Paint，它可以学习生成具有更加自然的绘画风格的输出幅面。该方法通过引入渐进层叠策略、依据语义指导刷子移动以及刷子规范化策略等 3 个策略，成功地实现了 60-80% 的刷子数目减少而不影响画面的质量。

Dec, 2021

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

大型语言模型作为通用模式机

使用预训练语言模型实现模式补全、序列建模、机器人控制等任务。

Jul, 2023