GIVT: 生成无限词汇的变形器
VideoGPT 是一种简单的架构,利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示,并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布,以帮助生成高保真的自然视频。
Apr, 2021
本文提出了一种新的图像合成模型 ——MaskGIT,采用双向 transformer 解码器,通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens,迭代地改进图像以获得高保真度和高分辨率的生成图像,并在 ImageNet 数据集上优于现有模型,同时通过自回归解码加速达到 64 倍,还可轻松扩展到各种图像编辑任务中。
Feb, 2022
使用基于图卷积投影和图池化的图神经网络(GvT),并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题,以及应用图池化来有效降低标记数量和聚合语义信息,实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。
Apr, 2024
使用预训练 Transformers 模型,结合 VQGAN 模型实现离散图像向量量化,进一步提高了图像生成和无监督表示学习的效率和准确性。同时,该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。
Oct, 2021
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 TextCaps、图像分类和场景文本识别等。
May, 2022
提出了一种名为 TimeVQVAE 的新模型,它使用矢量量化技术解决时间序列生成(TSG)问题,通过在时频域中分离出低频和高频来保留时间序列的重要特征,并使用双向转换模型学习离散潜在空间的先验知识,使其具有更好的全局时间一致性和更好的质量。
Mar, 2023
本文通过引入编码上下文并在条件生成对抗网络中使用,扩展了基于 Transformer 的时间序列生成对抗网络 (TTS-GAN),从而可以使用一个模型来拟合具有多个子组件的混合分布。通过定性和定量的评估指标,我们展示了该模型可以生成高维度和长时间序列数据,并在不同条件下具有较好的性能。
Oct, 2022
通过引入 Interactive VideoGPT (iVideoGPT) 框架,可以在实现世界决策过程中,使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号(视觉观察,行为和奖励)整合成一系列令牌,实现了通过下一个令牌预测的交互式体验,其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上进行预训练,建立起适用于各种下游任务的多功能基础,其中包括动作条件的视频预测,可视化规划和基于模型的强化学习,并且在与最先进方法相比,iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展,弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。
May, 2024