Perceiver AR 实现的通用、长上下文自回归建模
本文介绍了 Perceiver 模型,它利用了不对关系进行假设的 Transformer,同时还能在处理非常大的输入时进行规模扩展,通过迭代地将输入压缩到一个紧凑的潜在瓶颈中,并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。
Mar, 2021
Perceiver-VL 是一个高效处理大量视觉和语言输入的框架,采用迭代潜在跨注意力技术,具有线性可扩展性和高效性,并在保持其竞争力能力的同时,在各种基准测试中取得最佳结果。
Nov, 2022
提出了一种具有线性时间和空间复杂度的新型多层感知机(AMLP)来解决非自回归生成模型中的二次复杂度问题,并通过在文本转语音合成和机器翻译任务中的实验证明,AMLP 与 NAR 模型的结合在效率上明显优于竞争模型。
Oct, 2023
Axial Transformers 是一种基于自注意力的自回归模型,可用于生成高维张量数据,具有全表达能力和易于实现的特点,并在标准生成建模基准测试中取得了最新的成果。
Dec, 2019
Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.
Apr, 2024
我们提出了 Megabyte 模型,它是一种多尺度解码器结构,可以对超过一百万字节的序列进行端到端的微分建模,从而使自我注意力的时间复杂度进一步缩小,大量扩展了前馈层,实现了更好的并行处理能力,更高的性能和更低的成本,证明了无标记符自回归序列建模的可行性。
May, 2023
该论文研究了一种高效的基于自回归的视觉模型,通过有限的数据集在测试阶段展示了其在高层次和低层次语义理解等各种视觉任务上的能力,减少了参数占用以及训练数据要求,为通用视觉模型领域的可持续性和可访问性提供了重要进展。
Feb, 2024
本研究通过将感知机制与 copula 结构相结合,提出了一种模型,以增强时间序列预测。通过将感知机作为编码器,我们将复杂的、高维度、多模态数据有效地转化为紧凑的潜在空间,从而大大降低计算要求。我们进一步引入中点推断和局部注意机制来降低复杂度,使模型能够有效地捕捉缺失样本中的依赖关系。随后,我们部署基于 copula 的注意机制和输出方差测试机制,捕捉缺失数据的联合分布,并在预测过程中减轻错误传播。在单模态和多模态基准测试中,我们的实验结果显示,相对于现有方法,我们的模型在节约了一半内存资源的同时,保持了持续 20% 的改进。
Oct, 2023