Spectro-ViT:使用频谱图的 GABA 编辑 MRS 重建的视觉 Transformer 模型
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023
通过使用时间频谱图作为时间序列数据的可视表示,使用视觉变换器进行多模态学习的一种新方法,与统计基线、深度学习方法、其他视觉表示方法和只使用时间序列作为输入的研究进行对比,表明利用频谱图作为时间序列数据的可视表示具有优势,并且同时学习时间和频率域的优势。
Mar, 2024
提出了一种 Multi-View Spectrogram Transformer (MVST) 模型,将深度神经网络应用于呼吸音频谱图的分类,通过将 mel-spectrogram 分为不同大小的 patches,使用 transformer encoders 提取 patches 之间的注意力信息,并设计了一种门控融合机制来加强多视图特征,在呼吸音分类任务上明显优于现有最先进方法。
Nov, 2023
通过预采集调制的 LUM-ViT 方法,在图像分类任务中只采样原始图像像素的 10%,准确率损失不超过 1.8%,在实际的光学硬件上实现了接近原始准确率的结果。
Mar, 2024
该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型,通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制,确定和聚焦类别区域,然后在聚焦阶段使用原始图像中的该区域增强识别能力,该模型有效地缩小了计算要求并提高了性能。
Jan, 2024
我们提出了一种基于 3D 卷积引导的光谱 - 空间 Transformer(3D-ConvSST)的高光谱图像分类方法,该方法利用 3D 卷积引导的残差模块(CGRM)在编码器之间来 “融合” 局部空间和光谱信息以增强特征传递,并通过全局平均池化来提取更具有辨别力和相关性的高级特征进行分类。在三个公共高光谱图像数据集上进行了大量实验,证明了所提出模型相比传统的、卷积和 Transformer 模型的优越性。
Apr, 2024
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
本研究提出一种通过使用视觉转换器(ViT)关注频谱图中频率(y 轴)与时间(x 轴)之间的关联以及通过知识传递在 ViT 之间进行位置信息的传递的方法,从而提高语音情感识别(SER)的准确性,并通过验证实验结果表明,该方法在加权准确性和浮点运算次数(FLOPs)方面显著优于现有方法,同时提供了高效性和性能改进的有希望的解决方案。
Mar, 2024
我们发现 Vision Transformers(ViTs)中存在量化伪像,这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言,我们建议使用通过子标记空间平移扰动输入图像获得的特征集合,灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”(SRT),我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征,捕捉到更多的局部细粒度结构,这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上,并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显,在三种不同架构上,我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中,SRT 也在所有指标上均改进了基线模型,平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上,SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后,尽管 SRT 仅基于像素级特征进行操作,但它也适用于像图像检索和目标发现这样的非密集预测任务,分别产生了一致的改进效果,最多分别提高了 2.6% 和 1.0%。
Oct, 2023
利用 Gabor 滤波器和学习能力,结合视觉变换器模型,设计了一种有效的金字塔网络结构,称为 Focal Vision Transformers(FViTs),在各种视觉任务中展现出出色的性能。
Feb, 2024