使用视觉 Transformer 进行表面分析
提出了一种名为 ADFQ-ViT 的新型框架,通过引入 Per-Patch Outlier-aware Quantizer、Shift-Log2 Quantizer 和 Attention-score enhanced Module-wise Optimization 等方法,对 Vision Transformers 中的针对 post-LayerNorm 和 post-GELU activations 的离散化进行了改进,从而在 4 位情况下,在图像分类、目标检测和实例分割任务中明显提高了性能。
Jul, 2024
基于数字技术的学习内容个性化给个体和社会带来了巨大的好处,然而如何实现这种个性化仍然是一个未解之谜。为了解决这个问题,我们在一个大型数字自学平台上进行了一项随机对照试验。我们基于两个卷积神经网络开发了一个算法,根据学习路径将任务分配给 4365 位学习者,将学习者随机分为三组:两个处理组(一个群组自适应处理组和一个个人自适应处理组)和一个对照组。我们分析了三组在平台上所提供的努力和表现之间的差异。我们的空缺结果揭示了与学习路径个性化相关的多个挑战。
Jul, 2024
RCTNet 通过引入早期融合骨干网络、交叉阶段聚合模块、多尺度特征融合模块和高效自译注意力模块,以在准确变动检测中捕捉全局信息和细微细节,展示了相对传统遥感图像变动检测方法的明显优势,实现了准确性和计算成本之间的最佳平衡。
Jul, 2024
PosMLP-Video 是一种轻量但强大的 MLP-like 视频识别主干,通过使用高效的相对位置编码(RPE)构建配对令牌关系来解决图像理解任务中的显着挑战,扩展了图像 PosMLP 的位置门控单元到三种时空变种,能够实现计算模型简化且性能保持良好,并通过使用通道分组来丰富相对位置关系。
Jul, 2024
本文提出了一种新颖的多任务图神经网络(GNN),能够同时检测道路区域和道路边界;这两个任务之间的相互作用从两个角度提供了卓越的性能:(1)层次化检测的道路边界使网络能够捕获并编码整体道路结构以增强道路连通性(2)识别语义土地覆盖区域的内在相关性缓解了识别外观相似区域中充满道路的困难。实验结果表明,与现有方法相比,所提出的架构可以提高道路边界勾画和道路提取的准确性。
Jul, 2024
该论文介绍了一种新的块结构剪枝方法,用于解决视觉转换器的资源密集问题,通过均衡的权衡准确性和硬件加速,使其在保持高性能的同时减少资源需求。实验结果表明,该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能,并在精度保持和功耗节省之间实现了显著的平衡。
Jul, 2024
该研究提出了一种名为 GCF 的新方法,利用图卷积网络进行面部表情识别,通过将卷积神经网络用于特征提取,并结合图卷积神经网络层,有效提高了识别准确率,对 CK+,JAFFE 和 FERG 等数据集进行了评估,并证明了 GCF 方法在捕捉微妙面部表情方面的有效性,为人脸表情识别的实际应用提供了更高的准确性和稳健性。
Jul, 2024
CGRclust 是一种结合了无监督孪生对比聚类和卷积神经网络的创新方法,用于 DNA 序列的图像分类聚类,能够准确地对各种 DNA 序列数据集进行聚类,并在 18.70% 的准确性上超过其他三种 DNA 序列聚类方法。
Jul, 2024
提出了 xLSTM-UNet,这是一种基于 Convolutional Neural Networks 和 Vision Transformers 的深度学习神经网络,用于解决生物医学图像分割中的长距离依赖性问题,并通过实验证实了其在多个数据集中超越了其他基于 CNN、Transformer 和 Mamba 的分割网络,表明了 xLSTM-UNet 在 2D 和 3D 生物医学图像分析中的潜力。
Jul, 2024