- 视觉的高效扩散模型:一项调查
本综述主要介绍了最近视觉领域中扩散模型的进展,特别是那些影响扩散模型计算效率的重要设计方面,重点是强调了最近提出的设计选择,这些选择导致更高效的扩散模型。
- 扩张邻域注意力变换器
本文介绍了一种新型 Hierarchical Vision Transformer,Dilated Neighborhood Attention Transformer(DiNAT)及其基于 Dilated Neighborhood Att - 最新权重平均化技术:缩短 ImageNet 和 BERT 的训练时间,切莫浪费我的时间!
通过对每个时期末的 k 个最新检查点的权重进行平均,可加速图像和自然语言模型的训练,并减少大量 GPU 时间,从而实现更快的收敛。
- 掩码自编码器在视觉和其他领域的自监督学习中的调查
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
- Theseus: 可微分非线性优化库
这篇研究提出 Theseus 库,是一个基于 PyTorch 的高效应用软件无关的开源库,提供端到端的机器人和视觉结构化学习的通用框架,通过支持稀疏求解器、自动向量化、批处理、GPU 加速和隐式微分的梯度计算进行直接损失最小化,实现了显著的 - CVPR视觉和文本的组合混合表示
本文提出一种用于视觉与语言之间学习共同表示空间的模型,通过组合语义上的含义并不需要显式位置监督,将文本的复合性约束在视觉领域中,并通过空间变换器以及一种表示学习的方法,学习将图像分成分别编码的补丁,以可解释的方式将视觉和文本表示相结合,该模 - 邻域注意力变换器
该研究提出了邻域注意力机制(Neighborhood Attention),改进了窗口自注意力机制(Window Self Attention),提高了视觉任务的性能,特别是图像分类方面。
- CALVIN: 一种针对长时间跨度机器人操作任务的语言条件策略学习基准
本文提出了 CALVIN(通过语言和视觉组合动作)这一开放源代码数据集,目的是让机器人代理能够通过追踪无限制的语言指令来解决许多长期性的机器人操纵任务,并支持传感器套件的灵活规定。在零 - shot 条件下,实验证明基于多环境下的学习的基线 - 音频 Transformer 的 Patchout 高效训练
本文提出一种优化和正则化变压器模型的新方法,使其在音频光谱图上实现了新的最优性能,同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。
- CrossFormer: 基于跨尺度注意力实现多功能视觉 Transformer
本研究提出了 CEI 和 LSDA 来解决现有视觉 transformer 无法处理不同尺度特征相互作用的问题,并基于多尺度注意力模块设计了一种适用于可变尺寸输入的通用视觉架构 CrossFormer.
- 视觉 Transformer 的后训练量化
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
- 共同指导:跨归纳偏差蒸馏
该研究提出了一种新颖的基于蒸馏的方法,用于训练视觉 transformers,并取得了比先前同等架构的 transformers 更好的性能,该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student tran - CVPR基于自然语言和时空变换器的车辆检索
本文介绍了一个模块化解决方案 All You Can Embed (AYCE),旨在将单车跟踪序列与自然语言相关联以解决智慧城市应用中结合视觉与文本信息的问题,其核心为使用 BERT 提供文本描述的嵌入和卷积背骨和 Transformer - AAAI少即是多:在视觉 Transformer 网络中降低注意力
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分 - VSR:将视觉、语义和关系结合的文档版面分析统一框架
提出了一种 VSR 统一框架,结合了视觉、语义和关系,可同时支持 NLP 和 CV 方法,其中使用文档图像和文本嵌入映射来引入视觉和语义,并通过图神经网络模块对布局组件之间的关系进行建模,取得了比以往模型更好的结果。
- ACLL2C: 描述视觉差异需要对个体进行语义理解
本文介绍了一种 Learning-to-Compare 模型,该模型能够理解两个图像之间的语义结构并学习描述每个图像,从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能,且同时 - 用于越野无人车的多模态动力学建模
该篇论文研究如何在戶外和非结构化环境下使用多种传感器来构建预测机器人动态的模型,实验表明多种传感器的组合能够更准确地预测机器人的状态变化。
- 神经元的组合解释
我们使用一种解释深度学习表征中神经元的程序,通过识别与神经元行为密切相关的组合逻辑概念来实现,以比先前使用原子标签的解释方法更精确地描述他们的行为,并回答了一些有关视觉和自然语言处理模型可解释性的问题。
- ECCVGRNet:用于密集点云补全的格网残差网络
本研究提出了一种名为 GRNet 的新方法,以 3D 网格为中间表示形式,通过保留结构和上下文信息来完善不完整的 3D 点云,并采用新的梯度损失函数来计算预测和真实点云之间的 L1 距离,实验结果表明这种方法在多个基准测试中表现优秀。
- ACL语言与视觉推理的跨模态相关性
本研究探讨了学习和推理语言和视觉数据的挑战,并设计了一种新型跨模态相关模块,可用于学习各种输入模态的组件之间的相关表示,它比仅仅重新调整原始表示空间更具泛化性。我们的方法不仅模拟了文本实体和视觉实体之间的关联,还模拟了文本中实体关系和图像中