STAR：基于自回归表示的按尺度文本图像生成

Jun, 2024

STAR：基于自回归表示的按尺度文本图像生成

STAR: Scale-wise Text-to-image generation via Auto-Regressive representations

Xiaoxiao Ma, Mohan Zhou, Tao Liang, Yalong Bai, Tiejun Zhao...

TL;DRSTAR 是一种文本到图像模型，通过采用自回归范式实现，并通过预训练文本编码器提取文本约束的表示，利用交叉注意力层提高生成图像与文本指导的交互作用，借助 2D RoPE 和归一化版本，确保不同尺度上的相对位置的一致解释，并通过超过现有基准的实验结果，展示其在高质量图像合成方面的潜力，为当前由扩散方法主导的 T2I 领域提供有希望的新方向。

Abstract

We present star, a text-to-image model that employs scale-wise auto-regressive paradigm. Unlike VAR, which is limited to class-conditioned synthesis within a fixed set of predetermined categories, our

star text-to-image model open-set generation cross-attention layers image synthesis

发现论文，激发创造

视觉自回归建模：通过下一尺度预测实现可扩展图像生成

Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.

Apr, 2024

面向内容丰富的文本图像生成的自回归模型扩展

该研究提出了 Pathways Autoregressive Text-to-Image（Parti）模型，它是一个将文本转换为高保真度照片般的图像的模型，并支持包含复杂组合和世界知识的内容丰富的合成。

Jun, 2022

Emage: 非自回归式文本到图像生成

非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点，与自回归模型相比，其参数规模为 346M，使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。

Dec, 2023

A-STAR: 文本到图像合成的测试时间注意力分离和保留

本文提出了两种测试时间注意力损失函数，显著提高了预训练的基线文本到图像扩散模型的性能。第一，注意力隔离损失减少了文本提示中不同概念的注意力图之间的交叉重叠，从而减少了各种概念间的混淆 / 冲突和在生成的输出中捕获所有概念的最终目标。接下来，我们的注意力保留损失明确强制文本到图像扩散模型在整个去噪时间步中保留所有概念的交叉注意力信息，从而减少信息丢失并保留生成输出中的所有概念。

Jun, 2023

通过缩放实现更好的语音合成

本文介绍了一种将图像生成领域的进展应用到语音合成的方法，旨在创造出一种具有表现力和多音色的文本朗读系统 TorToise。

May, 2023

T-STAR：使用 AMR 图作为中间表示的真实风格转移

提出了一种基于 Abstract Meaning Representation（AMR）作为中间状态表示的文本风格转换（TST）模型 T-STAR，该模型在保留源文本内容的同时，将源文本转换成目标风格，实验表明 T-STAR 相较于目前最先进的 TST 技术具有更高的内容保留度和更少的虚假内容产生。

Dec, 2022

自学习识别器：面向语音基础模型的无监督适应

我们提出了一个无监督适应框架，Self-TAught Recognizer (STAR)，它利用无标签数据增强自动语音识别（ASR）系统在噪声和口音等多样的目标领域中的稳健性。STAR 基于基于 Transformer 相关架构和自回归解码的流行语音基础模型（例如 Whisper，Canary）进行开发。

May, 2024

图像变换器

在这项工作中，我们将基于自我关注机制的模型架构 ——Transformer 模型，泛化到图像生成的序列建模问题上，并通过限制自我关注机制只关注局部邻域，显著提高了模型能够实际处理的图像大小，同时在图像生成方面显著优于当前最优秀的状态，提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77，同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中，我们发现，我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。

Feb, 2018

自动矫正的鲁棒场景文本识别

我们提出了 RARE（具有自动矫正的强韧文本识别器），这是一种专门设计的深度神经网络，用于识别不规则文本，并能在多种基准测试上取得最先进或高度竞争性的表现。

Mar, 2016

具有辅助解码器的分层自回归图像模型

提出使用离散表示图像的方法，可以让基于自回归的生成模型输出具备更好的大规模连贯性，在 ImageNet 数据集上进行实验，证明了分层条件自回归模型可以在 128×128 和 256×256 的分辨率上生成逼真的图像。

Mar, 2019