Perceiver AR 实现的通用、长上下文自回归建模

ICMLFeb, 2022

Perceiver AR 实现的通用、长上下文自回归建模

General-purpose, long-context autoregressive modeling with Perceiver AR

Curtis Hawthorne, Andrew Jaegle, Cătălina Cangea, Sebastian Borgeaud, Charlie Nash...

TL;DR使用跨注意力机制构建了 Perceiver AR 机器学习模型，可自动学习高维的图像和音乐数据中的长期依赖关系，并在图像和书籍的测试中取得最优的结果，而无需人为设计稀疏模式或记忆机制。

Abstract

Real-world data is high-dimensional: a book, image, or musical performance can easily contain hundreds of thousands of elements even after compression. However, the most commonly used autoregressive models,

high-dimensional autoregressive models transformers perceiver ar long-range structure

发现论文，激发创造

带迭代注意力的通用感知器

本文介绍了 Perceiver 模型，它利用了不对关系进行假设的 Transformer，同时还能在处理非常大的输入时进行规模扩展，通过迭代地将输入压缩到一个紧凑的潜在瓶颈中，并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。

Mar, 2021

Perceiver-VL: 迭代潜在注意力的高效视觉语言建模

Perceiver-VL 是一个高效处理大量视觉和语言输入的框架，采用迭代潜在跨注意力技术，具有线性可扩展性和高效性，并在保持其竞争力能力的同时，在各种基准测试中取得最佳结果。

Nov, 2022

注意力多层感知器用于非自回归生成

提出了一种具有线性时间和空间复杂度的新型多层感知机（AMLP）来解决非自回归生成模型中的二次复杂度问题，并通过在文本转语音合成和机器翻译任务中的实验证明，AMLP 与 NAR 模型的结合在效率上明显优于竞争模型。

Oct, 2023

多维 Transformer 中的轴向注意力

Axial Transformers 是一种基于自注意力的自回归模型，可用于生成高维张量数据，具有全表达能力和易于实现的特点，并在标准生成建模基准测试中取得了最新的成果。

Dec, 2019

快速视觉感知的动态查询选择

本文探讨了如何在限制精度降低的同时，通过减少推理情况下的查询数量 Q，进一步提高 Perceivers 的效率，以解决网络复杂度和推理时间的问题。

May, 2022

视觉自回归建模：通过下一尺度预测实现可扩展图像生成

Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.

Apr, 2024

MEGABYTE: 使用多尺度 Transformer 预测百万字节序列

我们提出了 Megabyte 模型，它是一种多尺度解码器结构，可以对超过一百万字节的序列进行端到端的微分建模，从而使自我注意力的时间复杂度进一步缩小，大量扩展了前馈层，实现了更好的并行处理能力，更高的性能和更低的成本，证明了无标记符自回归序列建模的可行性。

May, 2023

通过顺序自回归打造数据高效的大型视觉模型

该论文研究了一种高效的基于自回归的视觉模型，通过有限的数据集在测试阶段展示了其在高层次和低层次语义理解等各种视觉任务上的能力，减少了参数占用以及训练数据要求，为通用视觉模型领域的可持续性和可访问性提供了重要进展。

Feb, 2024

基于神经自回归模型的高效实时钢琴转录

通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Apr, 2024

PrACTiS: 基于感知与注意力的时间序列联合模型

本研究通过将感知机制与 copula 结构相结合，提出了一种模型，以增强时间序列预测。通过将感知机作为编码器，我们将复杂的、高维度、多模态数据有效地转化为紧凑的潜在空间，从而大大降低计算要求。我们进一步引入中点推断和局部注意机制来降低复杂度，使模型能够有效地捕捉缺失样本中的依赖关系。随后，我们部署基于 copula 的注意机制和输出方差测试机制，捕捉缺失数据的联合分布，并在预测过程中减轻错误传播。在单模态和多模态基准测试中，我们的实验结果显示，相对于现有方法，我们的模型在节约了一半内存资源的同时，保持了持续 20% 的改进。

Oct, 2023