- 一种基于注意力的深度学习框架用于实时单目视觉里程计:应用于无 GPS 无人机导航
本文介绍了一种用于无人机的新型实时单目视觉里程计模型,使用了深度神经网络架构和自注意力模块,能够通过连续视频帧估计相机的自身运动,进而估计无人机的轨迹。该模型在两个视觉里程计数据集上测试,收敛速度比之前的循环神经网络模型快 48%,并且平均 - 变化导向网络:将变化先验纳入辅助进行遥感影像变化检测
CGNet 通过生成具有丰富语义信息的深度特征的变化图,利用其作为先验信息来引导多尺度特征融合,解决了传统卷积神经网络接收场不足的问题,进而有效地提高了变化特征的表达能力,并在四个主要的变化检测数据集上验证了其有效性和效率。
- AttentionLego:一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术
使用 Transformer 架构的大型语言模型(LLMs)在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元(GPUs)在计算过程中的输入 / 输出带宽需求问题,研究开发了一种全定制化的基于 - 基于边缘的定向物体检测
在遥感领域,我们提出了一种基于边缘梯度的独特损失函数,通过此函数解决了定向物体检测中面临的非可微性和梯度向量对齐的问题,并设计了一个基于边缘的自注意力模块,通过这两个创新,我们在 DOTA 数据集上实现了 1.3% 的 mAP 提升。
- 基于缺陷感知掩模变换的视频修复模型
该研究提出了一种双模式兼容修复框架,称为 Deficiency-aware Masked Transformer (DMT),通过自注意力模块和感受野上下文增强来提高视频修复的性能。
- 傅里叶变换器:通过 FFT 算子消除序列冗余进行快速长距建模
本文提出了 Fourier Transformer,该方法通过使用现成的快速傅里叶变换(FFT)算子来执行离散余弦变换(DCT)来逐步消除隐藏序列中的冗余信息以大大减少计算成本,同时保留了从各种大型预训练模型中继承权重的能力。结果表明,该模 - CVPR零样本全域面向素描图像检索,并具有可解释性
本文研究了零短距离素描图像检索(ZS-SBIR)问题,并提出了一种基于 transformer 的跨模态网络,包括可学习 tokenizer 的自我关注模块,计算视觉 tokens 之间的交叉关注模块,以及基于核的相关网络,通过对组之间的比 - 多关系转换器辅助项关系下的顺序推荐
对于顺序推荐中的辅助物品关系,提出了一个基于多关系变形器的顺序推荐方法进行建模,并通过实验表明其在冷启动问题等方面的有效性。
- 自我注意力视听导航
本文提出了一种叫做 FSAAVN 的端到端框架,通过自我关注模块,实现了上下文感知的视听融合策略,学习追逐一个移动的音频目标。实验证明,与现有技术相比,FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。
- ASAP:高准确度实时语义分割
本文提出使用 Feature Fusion with Different Norms (FFDN),利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上,平均交互并集(mIoU)为 - 探索注意力 GAN 用于车辆运动预测
本研究使用自注意力模块来计算社交和物理上下文情境,采样白噪声,探索了生成模型中注意力的影响,并在 Argoverse 运动预测基准 1.1 上取得了竞争力的单峰结果。
- 机器阅读理解的多粒度表示探究与应用
本文提出了一种名为自适应双向注意胶囊网络(ABA-Net)的新方法,通过在编码器中利用不同级别的源表示来为预测器提供不同视图,从而充分利用模型的表达能力,进而提升机器阅读理解任务的性能,实验结果表明,在 SQuAD 数据集上实现了最新的最佳 - YOLOSA 基于 2D 局部特征叠加自注意力的物体检测
通过使用新颖的自注意力模块,将全局特征反映到局部特征和局部接受域,以及优化解耦头和 AB-OTA,我们提出的模型在大中小型模型上能够实现 49.0%(71FPS,14ms),46.1%(85FPS,11.7ms)和 39.1%(107FPS - KDDProActive: 用于活动序列的自我关注时序点过程流
ProActive 是一种神经标记的时间点过程 (MTPP) 框架,用于对活动序列中行动的连续时间分布进行建模,同时解决了下一步行动预测,序列目标预测和端到端序列生成等高影响问题。使用自关注模块进行建模,以及附带较少的行动数量来预测序列目标 - 关于在持续预训练中有效地学习知识
通过定义知识裸露和无知识 token 并对样本进行专业标注,该研究发现 PLMs 在从非结构化文本中获取知识方面存在困难并开发了两种解决方案来帮助模型进行更多的知识自学习,实验证明了这些方法的有效性,是第一次探索做到完全自我监督的知识连续预 - CVPRInstaFormer:具有 Transformer 的实例感知图像翻译
提出了一种新型的基于 Transformer 的网络结构 InstaFormer,用于实例感知的图像到图像的转换,可以有效地整合全局和实例级信息,通过自注意力模块在 Transformers 中考虑上下文信息,通过将通过边界框信息从内容特征 - ECCVPanoFormer: 室内全景变换器用于 360 度深度估计
本文提出了一种名为 PanoFormer 的全景深度估计方法,通过使用来自球形域的切向补丁、可学习的 token 流以及全景特定指标来提高全景结构的感知能力,并通过重新设计自注意力模块来增强其拟合全景几何结构的能力,经实验证明其取得了比现有 - 通过同步实现长序列高效编码
本研究提出一种基于同步机制的层次编码方法,将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步,从而改善了不同类型长输入文本数据的全局信息交流。
- ECCV面向视觉 Transformer 的补丁相似度感知无数据量化
提出了 PSAQ-ViT,这是一种基于自注意力模块的 Patch Similarity Aware 数据无关量化框架,可以通过生成 “逼真” 样本来校准量化参数,从而实现 Vision transformers 在资源受限设备上的部署。
- ICML视频去模糊的流引导稀疏变压器
本文提出了一种新的视频去模糊框架,Flow-Guided Sparse Transformer(FGST),基于自注意力模块,使用光学流矫正模糊,并采用重复嵌入机制加强长时间依赖关系,结果表明 FGST 在 DVD 和 GOPRO 数据集上