快速视觉感知的动态查询选择
本文介绍了 Perceiver 模型,它利用了不对关系进行假设的 Transformer,同时还能在处理非常大的输入时进行规模扩展,通过迭代地将输入压缩到一个紧凑的潜在瓶颈中,并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。
Mar, 2021
Perceiver-VL 是一个高效处理大量视觉和语言输入的框架,采用迭代潜在跨注意力技术,具有线性可扩展性和高效性,并在保持其竞争力能力的同时,在各种基准测试中取得最佳结果。
Nov, 2022
该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术,这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配,并且可以在推理过程中灵活部署,适应多种计算预算,而不会导致显著降低翻译质量。
Oct, 2022
本文提出了动态感知器 (Dyn-Perceiver) 框架,使用新颖的双分支架构将特征提取过程和早期分类任务分离,并在分类分支内专门放置了早期退出,从而提高了深度神经网络的推理效率。
Jun, 2023
使用跨注意力机制构建了 Perceiver AR 机器学习模型,可自动学习高维的图像和音乐数据中的长期依赖关系,并在图像和书籍的测试中取得最优的结果,而无需人为设计稀疏模式或记忆机制。
Feb, 2022
提出了一种混合量子 - 经典视觉转换器架构,其特点是在注意机制和多层感知机中集成了变分量子电路。该研究解决了计算效率和资源限制在分析未来的高亮度大型强子对撞机数据方面的重要挑战,提出了该架构作为潜在解决方案。通过将该模型应用于 CMS 开放数据的多探测器喷注图像,我们评估了该方法的性能,旨在区分强子引发的喷注和胶子引发的喷注。我们成功训练了量子模型,并通过数值模拟对其进行了评估。使用这种方法,在考虑类似数量的参数的情况下,我们实现了与完全经典架构几乎相媲美的分类性能。
May, 2024
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
通过采用更高效的方法,我们提出了基于 QFormer 的图像 - 语言对齐策略,并证明了与现有基准方法相比,我们的策略在提高图像 - 语言预训练效率方面的有效性。
Nov, 2023
通过仿生设计的令牌混合器,模拟生物视觉和持续眼动,提出聚合注意力机制(Aggregated Attention),使特征图上的每个令牌具有全局感知能力。同时,结合学习性令牌、卷积 GLU 机制,构建新的视觉主干网络 TransNeXt,实验结果表明其在多个模型尺寸上实现了最先进的性能。
Nov, 2023
本文提出 Perceiver IO 机器学习模型,它具有灵活的查询机制,能够处理来自任意领域的数据并对多种任务进行推理,其性能表现优于传统的 Transformer-based BERT 基准测试,并在 Sintel 光流估计方面取得了最先进的性能。
Jul, 2021