使用视觉 Transformer 进行表面分析

CVPRMay, 2022

Surface Analysis with Vision Transformers

Simon Dahan, Logan Z. J. Williams, Abdulah Fawaz, Daniel Rueckert, Emma C. Robinson

TL;DR该论文介绍了将自注意力模型应用于通过序列到序列问题学习曲面表示，并提出一种可应用于不规则曲面网格的表面视觉 Transformer（SiT）模型，该模型提高了两项大脑年龄预测任务的精度。

Abstract

The extension of convolutional neural networks (CNNs) to non-Euclidean geometries has led to multiple frameworks for studying manifolds. Many of those methods have shown design limitations resulting in poor modelling of long-range associations, as the generalisation of convolutions to

convolutional neural networks vision transformers self-attention surface mesh brain age prediction

发现论文，激发创造

ADFQ-ViT: 视觉 Transformer 的激活分布友好的后训练量化

提出了一种名为 ADFQ-ViT 的新型框架，通过引入 Per-Patch Outlier-aware Quantizer、Shift-Log2 Quantizer 和 Attention-score enhanced Module-wise Optimization 等方法，对 Vision Transformers 中的针对 post-LayerNorm 和 post-GELU activations 的离散化进行了改进，从而在 4 位情况下，在图像分类、目标检测和实例分割任务中明显提高了性能。

Jul, 2024

机器学习能否解决自适应学习和个性化学习路径的挑战？在线学习平台的实地实验

基于数字技术的学习内容个性化给个体和社会带来了巨大的好处，然而如何实现这种个性化仍然是一个未解之谜。为了解决这个问题，我们在一个大型数字自学平台上进行了一项随机对照试验。我们基于两个卷积神经网络开发了一个算法，根据学习路径将任务分配给 4365 位学习者，将学习者随机分为三组：两个处理组（一个群组自适应处理组和一个个人自适应处理组）和一个对照组。我们分析了三组在平台上所提供的努力和表现之间的差异。我们的空缺结果揭示了与学习路径个性化相关的多个挑战。

Jul, 2024

卷积神经网络 - Transformer 融合网络与变化检测的关联

RCTNet 通过引入早期融合骨干网络、交叉阶段聚合模块、多尺度特征融合模块和高效自译注意力模块，以在准确变动检测中捕捉全局信息和细微细节，展示了相对传统遥感图像变动检测方法的明显优势，实现了准确性和计算成本之间的最佳平衡。

Jul, 2024

PosMLP-Video：高效视频识别的时空相对位置编码

PosMLP-Video 是一种轻量但强大的 MLP-like 视频识别主干，通过使用高效的相对位置编码（RPE）构建配对令牌关系来解决图像理解任务中的显着挑战，扩展了图像 PosMLP 的位置门控单元到三种时空变种，能够实现计算模型简化且性能保持良好，并通过使用通道分组来丰富相对位置关系。

Jul, 2024

全面嵌套结构感知图神经网络用于道路提取

本文提出了一种新颖的多任务图神经网络（GNN），能够同时检测道路区域和道路边界；这两个任务之间的相互作用从两个角度提供了卓越的性能:（1）层次化检测的道路边界使网络能够捕获并编码整体道路结构以增强道路连通性（2）识别语义土地覆盖区域的内在相关性缓解了识别外观相似区域中充满道路的困难。实验结果表明，与现有方法相比，所提出的架构可以提高道路边界勾画和道路提取的准确性。

Jul, 2024

光谱图推理网络用于高光谱图像分类

我们提出了一种谱图推理网络 (SGR) 学习框架，通过谱解耦模块和谱集成模块，有效利用高光谱图像进行分类，取得了显著的性能提升。

Jul, 2024

LPViT：低功耗半结构化剪枝用于视觉 Transformer

该论文介绍了一种新的块结构剪枝方法，用于解决视觉转换器的资源密集问题，通过均衡的权衡准确性和硬件加速，使其在保持高性能的同时减少资源需求。实验结果表明，该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能，并在精度保持和功耗节省之间实现了显著的平衡。

Jul, 2024

GCF: 图卷积网络用于面部表情识别

该研究提出了一种名为 GCF 的新方法，利用图卷积网络进行面部表情识别，通过将卷积神经网络用于特征提取，并结合图卷积神经网络层，有效提高了识别准确率，对 CK+，JAFFE 和 FERG 等数据集进行了评估，并证明了 GCF 方法在捕捉微妙面部表情方面的有效性，为人脸表情识别的实际应用提供了更高的准确性和稳健性。

Jul, 2024

CGRclust: 用于无标签 DNA 序列的双对比聚类的混沌游戏表示

CGRclust 是一种结合了无监督孪生对比聚类和卷积神经网络的创新方法，用于 DNA 序列的图像分类聚类，能够准确地对各种 DNA 序列数据集进行聚类，并在 18.70% 的准确性上超过其他三种 DNA 序列聚类方法。

Jul, 2024

xLSTM-UNet 可作为一个有效的 2D 和 3D 医学图像分割骨干，其 Vision-LSTM (ViL) 相较于其 Mamba 对应物更佳

提出了 xLSTM-UNet，这是一种基于 Convolutional Neural Networks 和 Vision Transformers 的深度学习神经网络，用于解决生物医学图像分割中的长距离依赖性问题，并通过实验证实了其在多个数据集中超越了其他基于 CNN、Transformer 和 Mamba 的分割网络，表明了 xLSTM-UNet 在 2D 和 3D 生物医学图像分析中的潜力。

Jul, 2024