关于用于侧扫声纳图像分类任务的视觉变换器

Sep, 2024

关于用于侧扫声纳图像分类任务的视觉变换器

On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery

BW Sheffield, Jeffrey Ellen, Ben Whitmore

TL;DR本研究解决了侧扫声纳图像中人造物体分类的挑战，尤其是在复杂的海底环境中。通过比较视觉变换器（ViT）与传统卷积神经网络（CNN）架构，发现ViT模型在多个分类性能指标上表现更佳，尽管需要更大的计算资源。这一发现为未来在资源受限的水下环境中应用ViT提供了新的思路。

Abstract

Side-scan sonar (SSS) imagery presents unique challenges in the Classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interp

发现论文，激发创造

前瞻声纳图像识别中卷积网络的最佳实践

本文评估了卷积神经网络设计人员需要做出的三个常见决策对CNN的影响，证实了使用SVM的迁移学习在小数据集情况下非常有效，同时表明使用ADAM优化器和批量归一化可以使得即便在图像尺寸较小的情况下也可以获得高精确度的CNN分类器。

Sep, 2017

水下图像增强基准数据集及其拓展

本文通过对海底图像进行感知研究来评估现有算法在实际数据中的表现，并提出了一个海底图像增强基准(UIEB)数据集，包括950张真实图像以及涉及卷积神经网络的算法，以此来评估现有算法的性能和局限性。

Jan, 2019

深度残差乘法器用于水下图像超分辨率

本文提出了一种基于深度残差网络的生成模型，用于自主水下机器人对水下图像的单张图像超分辨率(SISR)处理，并提供了一个基于对抗训练的SISR学习流程。通过评估图像的全局内容、颜色和本地风格信息，我们制定了一个目标函数来监督训练。此外，我们提出了USR-248，一个大型的数据集，包含三种不同尺寸的水下图像，可用于监督2x，4x或8x SISR模型的训练。我们的实验表明，我们提出的模型具有非常好的性能，可用于在嘈杂的视觉条件下进行场景理解和注意力建模等应用。

Sep, 2019

用于声纳图像的预训练模型

本文介绍了Marine Debris Turntable数据集和基于此数据集训练的预训练神经网络，可用于填补声纳图像缺失的预训练模型的空白。通过使用转移学习，在Marine Debris Watertank和Gemini 720i sonar数据集上对训练的模型进行评估，结果表明在低样本（每类10-30个样本）下，预训练的模型能够产生良好的特征，提高分类准确性，并且这些特征能够转移到到其他类型的声纳传感器中。

Aug, 2021

自监督学习用于声纳图像分类

本研究探讨了三种自监督学习方法（RotNet，去噪自编码器和Jigsaw）在水下机器人领域中，能否在无需大型标记数据集的情况下学习高质量的声纳图像表示，并提出了预训练和迁移学习的结果。结果表明，三种方法的自监督预训练可在少数样本迁移学习设置中实现与有监督预训练相当的分类性能。

Apr, 2022

使用深度神经网络从侧扫声纳进行高分辨率洋底地形重建

该研究提出了一种新颖的数据驱动方法，通过测距侧扫声呐图像和稀疏深度信息，结合全卷积网络和神经网络，用于高分辨率测绘海底地形图。

Jun, 2022

自监督学习提升合成孔径声纳目标识别

这项研究探讨了自监督学习（SSL）在合成孔径声纳（SAS）图像识别改进中的应用，结果表明，尽管两个SSL模型在少样本情况下可以优于完全监督模型，但在使用全部标签时不能超过其性能，这有助于减少数据标记的时间和成本，同时提供了远程感知中使用SSL的证据。

Jul, 2023

改进合成训练的声纳图像描述符在水下地点识别中的泛化性能

自主导航与水下环境中的挑战，主要包括光吸收和水浑浊度等因素，传统视觉算法对声纳生成的声学图像的应用效果较差，而卷积神经网络通常需要大量的标记训练数据，这些数据通常难以获取。因此，我们提出了一种新型的紧凑型深度声纳描述符管道，它能够在仅仅用于合成数据的情况下推广到真实场景，并通过标准的临时规范化/预滤波技术提升输入声纳数据的质量。同时，我们还介绍了自定义的合成数据生成过程。通过对合成和公开可用的真实数据的广泛评估，证明了我们提出的方法相较于最先进的方法更加有效。

Aug, 2023

基于弱监督的圆扫描合成孔径声纳图像的语义分割

我们提出了一种弱监督框架，用于圆型扫描合成孔径声纳（CSAS）图像的语义分割。

Jan, 2024

BenthicNet: 为深度学习应用的全球海底图像编制

通过海底成像技术的发展，建立了全球的海底影像数据库BenthicNet，以用于支持大规模图像识别模型的培训和评估，初步结果表明它有助于自动化大规模和小规模的图像分析任务。

May, 2024