- DSNet:一种在语义分割中使用空洞卷积的新方法
在语义分割任务中,采用空洞卷积作为增加感受野的方法,本研究通过在模型浅层引入大核心空洞卷积以及预训练图像编码器等策略,提出了 DSNet,一种新的双分支卷积神经网络结构,它在 ADE20K、Cityscapes 和 BDD 数据集上以更高的 - 适应性提取网络用于多元长序列时间序列预测
多分辨率卷积和可变形卷积操作的自适应时变卷积网络(ATVCNet)在多变量时间序列的局部 / 全局时间依赖和变量间依赖建模方面取得了显著改进,通过不同扩张因子的卷积核扩大感受野以捕捉不同分辨率间的时间相关信息,并通过附加的偏移向量自适应调整 - 基于 CNN 和训练动态的自动文本识别
使用 Data Maps 对 AuTexTification 数据集进行建模和表征,通过训练过程中个体样本的行为洞察(训练动态)。我们通过自信度、可变性和正确性这三个维度表征样本,发现有三个区域:易学习、模糊和难学习的样本。我们使用经典的 - 改进用于多样人群的卷积神经网络脑肿瘤分割
通过使用 MedNeXt 等卷积神经网络架构进行脑肿瘤分割,本研究在 BraTS-GoAT 挑战中的各种人群(如成人、儿科和非洲撒哈拉以南地区)的脑部 MRI 扫描图像中自动分割肿瘤,并通过大量的模型集成和后处理方法在未知验证集上表现良好, - 采用卷积神经网络、ResNet 和 Grad-CAM 的黄斑变性感知和定位
通过使用 CNN 和 ResNet 架构,本研究基于定位黄斑变性视网膜区域,对健康和黄斑变性视网膜进行分类,其中以 ResNet50 作为骨干结构的 CNN 模型表现最佳,该模型对 90% 训练和 10% 测试数据划分的训练准确度达到 98 - 低能见度场地条件下的 4D 雷达数据人体检测
自动驾驶技术在公共道路和工业场景中越来越普遍,但传统摄像头或激光雷达在恶劣环境下的表现受到影响。我们提出了一种基于 4D 雷达的 CNN 架构 TMVA4D,用于语义分割,并且说明了构建数据集的过程。在工业环境的数据集上,我们使用 TMVA - 图像恢复中的旋转等变性近似优化算子
通过在深度展开网络中嵌入旋转对称先验的设计,提出了一个高精度的旋转等变近端网络,并首次推导了任意层数下任意旋转度下等变近端网络的理论等变误差评估,为支持具有内在可解释性要求的网络提供了理论依据。
- PhytNet:定制植物数据的适应性卷积神经网络
自动疾病分类、杂草分类和作物分类是农业未来中非常重要的一部分,通过计算机视觉进行自动化,然而现有的模型架构如 ResNet、EfficientNet 和 ConvNeXt 在类似项目的小规模专门数据集上常常表现不佳,我们通过数据采集和开发新 - FrameRS: 自监督视频帧重建模型和关键帧选取器构成的视频帧压缩模型
本研究提出了一个名为 FrameRS 的帧重建模型。它由自监督的视频帧重建器 FrameMAE 和关键帧选择器 Frame Selector 组成。FrameMAE 采用了 Masked Autoencoder for Images(MAE - CVPRBinaryViT:将二值化 Transformer 推向卷积模型
本文提出 BinaryViT 来增强二进制 ViT 的表现能力,加入了一些 CNN 结构的操作,包括平均池化层、多个平均池化支路、仿射变换等,实验证明,这使得一个纯二进制 ViT 模型非常具有竞争力。
- 在低端硬件上使用语言模型
本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性,将语言模型与 CNN 构架相结合,并在 8 个数据集上进行了综合基准测试,覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡,结论是,在某些情 - 自动胸部 X 光报告生成中图像编码的重要性
该论文主要研究了自动放射学报告生成的技术,重点关注了图像编码组件的相对重要性,并在 MIMIC-CXR 数据集上比较了四种不同的图像编码方法,结果表明 fine-grained 编码优于其他编码方法。
- 并行忆阻卷积神经网络用于癫痫检测与预测
本文提出一种新颖的低延迟并行卷积神经网络 (CNN) 框架,该框架使用阻性随机存取存储器 (RRAM) 器件来并行执行卷积层内核,从而实现了比当前最先进的 Memristive-CMOS 混合 DL 加速器低两个数量级的延迟降低,同时考虑非 - 使用超级核函数学习光流
本文提出了基于 CNN 的 Super Kernel Flow Network (SKFlow) 算法估计局部模糊区域中的光流,通过超级核心理论解决匹配信息缺失的问题,在 Sintel 基准测试中表现优秀。
- 压缩爆照:有损图像压缩对红外图像中可变尺寸物体检测的影响
研究应用不同级别的 JPEG 压缩方法对红外波段图像进行无损压缩,并评估不同级别压缩对于三种深度学习 CNN 架构(Cascade-RCNN、FSAF 和 Deformable DETR)在不同尺寸目标检测中的影响,结果表明对于 tiny - 一种深度 CNN 架构,采用新型汇聚层应用于两个苏丹阿拉伯语情感数据集
提出了两个新的公开数据集,SudSenti2 和 SudSenti3,介绍了一个包含五个 CNN 层和一个新颖的池化层 MMA 的 CNN 架构 SCM,将 SCM+MMA 模型应用于这两个数据集并得出 92.75% 和 84.39% 的准 - 从视频中学习基于语音的 3D 对话手势
利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势,面部表情和语音生成,同时创造出三维身体、手部和面部数据,并利用多模态的 3D 姿态估计技术和训练,实现更加自然流畅的合成动画。
- CVPR用于密集预测任务的密集连接多扩张卷积网络
本文介绍了一种新的用于高分辨率密集预测的卷积神经网络架构,称为 D3Net,其采用了多分辨率学习和逐渐膨胀的感受野来同时建模局部和全局模式,避免了深度网络中的深度耗散问题,并在图像和音频处理任务中取得了优越的性能。
- D-VDAMP: 一种用于压缩 MRI 的去噪近似消息传递技术
本文提出了一种 CNN 架构用于去除带彩色高斯噪声的图像噪声,并结合 VDAMP 算法,该算法的有效噪声遵循可预测的彩色高斯分布,应用于可变密度采样压缩 MRI,其性能明显优于现有技术。
- ICMLC2G-Net:利用形态属性进行图像分类
该研究提出了一种名为 C2G-Net 的图像分类管道,旨在利用具有大量类似物体(如生物细胞)的图像的形态特性。C2G-Net 包括两个组成部分:(1) Cell2Grid,一种通过细胞分割并将其排列在网格上的图像压缩算法;(2) DeepL