- 面部伪造检测的带注意力调制的 RetNet
通过引入轻量级的网络 BAR-Net,本研究解决了 transformer 网络在平衡全局上下文获取与计算复杂度之间的挑战,提高了人脸伪造检测的性能。
- xT:用于大图像中更大上下文的嵌套标记化
现代计算机视觉流水线处理大图像的方式可以分为两种:降采样或裁剪。但这两种方法都会导致图像中信息和上下文的严重损失。我们引入了一个名为 xT 的简单框架,可以在当今的 GPU 上端到端地对大图像进行全局上下文与局部细节的有效聚合建模。我们选择 - LVC-LGMC:学习式视频压缩的联合局部与全局运动补偿
通过引入联合的局部和全局运动补偿模块(LGMC),本研究提出了一种学习视频编码的方法,结合了局部和全局运动补偿,有效提高了速率失真性能。
- 对话的本地和全局语境
本研究介绍了一种用于开放领域通用对话的局部和全局会话模型(LGCM),它是一种局部 - 全局层次化转换器模型,能够准确辨别和吸收生成回答所需的相关上下文。通过使用局部编码器捕获个别话语的局部上下文以及使用全局编码器理解对话层面的更广泛上下文 - 低分辨率自注意力用于语义分割
本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型,以较低的计算成本捕捉全局上下文,并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。
- DragD3D: 基于顶点编辑的实际网格变形,使用 2D 扩散先验
通过直接操作少量顶点,结合几何 ARAP 正则化器和基于大规模扩散模型的 2D 先验,我们提出了一种名为 DragD3D 的局部网格编辑方法,实现全局上下文感知的逼真变形。我们的研究表明,我们的变形方法比仅使用几何正则化器获得更好的结果,且 - 高效语义分割的超像素变换器
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型 - ICCV图像超分辨率的双聚合变换器
基于 Transformer 的双聚合模型 (Dual Aggregation Transformer, DAT) 用于图像超分辨率任务中,通过在连续的 Transformer 块中交替应用空间和通道自注意力机制,同时引入自适应交互模块 ( - 增强空间上下文的潜在图注意力
本文介绍了一种计算效率高且模块化的框架 ——Latent Graph Attention(LGA),该框架能够将全局背景信息融入现有架构中,特别是能够使小型架构的性能接近大型架构,从而使轻量级架构在计算能力和能源需求较低的边缘设备中更加有效 - 使用 Monitors 引导编码的语言模型全局上下文
本文提出一种使用静态分析的策略,称作监视器,以指导解码器生成包含正确类型的标识符代码。通过将检索引入解码过程中提高模型的性能,实验结果表明,在指导下,一些较小的 LMs 的编译率和正确性要优于一些较大的 LMs。
- InvPT++:倒立金字塔多任务变压器用于视觉场景理解
提出了一个可以在全局情境下建立不同任务的空间特征之间交互的倒金字塔多任务转换器,以及两种跨尺度自注意模块,以有效地促进跨任务交互。
- AWESOME: 利用内存机制和全局显著内容进行 GPU 内存受限的长文档摘要
本文提出了一种基于分治策略和外部内存机制的长文档自动摘要框架 AWESOME,该框架通过预处理全局重要内容,在保留全局上下文的同时,增强了对全文的理解,实现了更好的摘要信息性、可信度和连贯性。
- CVPRCastling-ViT: 基于线性 - 角度注意力切换的视觉 Transformer 推理压缩自注意力
本文提出了一种名为 Castling-ViT 的框架,该框架结合使用线性角度注意力和掩码 Softmax 的二次注意力模块,旨在同时学习全局和局部上下文,但在 ViT 的推理过程中仅使用线性角度的注意力模块,实现了降低计算量、提高精度的优化 - DaViT: 双注意力视觉 Transformer
本文提出 Dual Attention Vision Transformers (DaViT) 网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
- CVPREDTER: 基于 Transformer 的边缘检测
本文介绍了一种基于 transformer 的边缘检测器,利用全局上下文信息和详细的局部线索同时提取清晰和清晰的物体边界和有意义的边缘,表现比现有技术更优秀。
- 具有 Transformer 的多视角立体
本文介绍了一种称为 MVSTR 的网络,利用 Transformer 提取拥有全局上下文和三维一致性的密集特征,对于 Multi-View Stereo(MVS)可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问 - Mix3D:用于三维场景的非上下文数据增强
本研究提出 Mix3D 数据增强技术,以平衡全局场景和局部几何关系,并通过混合两个增强场景的方式创建新的训练样本,从而使模型不仅依赖于场景上下文的先验知识,而且基于局部结构推断语义信息,实验证明 Mix3D 在建筑室内和户外的数据集上均获得 - 使用 Transformer 简化和改进众数计数的 CCTrans
本文提出了一种基于 CNN 与 transformer 结合的、名为 CCTrans 的简单方法,使用金字塔视觉 transformer 骨干模型捕捉全局人群信息、金字塔特征聚合模型组合低级和高级特征以及多尺度膨胀卷积预测密度图,我们的方法 - EMNLP使用深度学习导航 COVID-19 谣言万花筒
通过系统研究表明,基于深度 Transformer 的预训练模型,虽然在混合领域转移学习方面表现出色,但无法为检测 COVID-19 社交媒体数据中的错误信息提供通用解决方案。因此,本文提出了一种使用浅层网络和卷积神经网络的分层方法来提取目 - ICLR注意力机制胜于矩阵分解吗?
通过将全局上下文建模问题视为低秩恢复问题,将 MD 模型作为解决方案以低成本、高效的方式优于现有的注意机制,特别是自注意机制,在解决先前无法解决的全局性任务上具有广泛应用,特别是在计算机视觉上。