- 面向边缘设备的高效人脸识别模型
本文介绍了 EdgeFace,这是一种轻量级高效的人脸识别网络,它结合了 CNN 和 Transformer 模型的优势,使用低秩线性层优化了计算性能,适用于边缘设备,并在多个领域取得了理想的人脸识别结果。
- 利用 SSNet 从 EEG、EOG 和 EMG 信号中分类睡眠阶段
本研究提出了一种端到端的深度学习结构 SSNet,包括基于卷积神经网络(CNN)和长短期记忆(LSTM)的两个深度学习网络,用于通过联合眼电图(EOG)、脑电图(EEG)和肌电图(EMG)的信号分类睡眠阶段。在两个公共数据集上进行了测试,取 - 快速行进能量卷积神经网络
通过生成适用于 CNN 问题的等向黎曼度量方法,我们在脑肿瘤分割中利用测地距离模块保证几何和拓扑性能,并展示其能在机器学习框架下取得最新技术表现。
- 深度图像超分辨率的尖端技术
本研究提出了一种基于 Swin 变换器架构和非线性激活函数自由网络的联合图像滤波深度图超分辨率算法,并通过数值研究和视觉示例证明了其在保持竞争计算时间的同时提高了最先进性能。
- 将双向长短期记忆网络与子单词嵌入结合,用于作者归属度量
本文提出了一种基于双向长短期记忆 (BLSTM) 和二维卷积神经网络 (CNN) 的方法来进行文本作者识别,通过使用子词信息获得特征之间的顺序关系以及了解风格的局部语法位置,实验证明该方法相比其他最新方法在 CCAT50 和 Twitter - 半监督医学图像分割的多尺度交叉对比学习
本文提出了一种 MCSC 框架,联合训练 CNN 和 Transformer 模型,并采用多尺度交叉监督对比学习来对医学图像进行结构分割。实验证明,该方法在 Dice 系数上比现有的半监督方法提高了 3.0% 以上,并且大大缩小了与全监督方 - 利用 GrabCut 和生成对抗串行自编码器进行辣椒病害图像重建诊断
本研究提出了一种基于 Gan 的辣椒疾病自动检测系统,具有高性能的图像评分计算方法,并将三个结果通过一个判别器同时分类,该方法表现比以前的研究更好。
- MixedTeacher:用于快速推理纹理异常检测的知识蒸馏
本文提出了一种基于知识蒸馏的新方法,在正常样本上训练一个网络(学生),同时考虑预训练网络的输出(教师),并结合两位教师提出了新的学生 - 教师体系结构,用于联合增强异常检测和其定位精度。提出的纹理异常检测器能够检测任何纹理中的缺陷,并具有比 - 可解释的人工智能和机器学习在人类步态恶化分析方向的应用
本研究采用卷积神经网络和机器学习技术,通过分析步态数据并将研究结果与临床相关生物标志联系起来,实现对帕金森氏症认知功能下降的步态分析。
- 基于差分特征引导 DDPM 的变化检测图生成的变化传播
本研究提出了基于 DDPM 的 change-aware diffusion model (CADM) 模型,使用有限的标注数据快速训练,采用动态差分条件编码来增强 bitemporal change detection 任务中的区域注意力 - SAPI:交叉口环境感知车辆轨迹预测
本文提出了一个基于深度学习框架的交叉口车辆轨迹预测模型(SAPI),该模型利用实时地图、优先权和周围交通的信息表示与编码环境,并通过卷积神经网络(CNN)和循环神经网络(RNN)对原始历史轨迹信息进行完全分析,能够在不同场景下准确预测车辆轨 - NNMobile-Net:深度学习性视网膜病变研究中卷积神经网络设计的反思
本文旨在提出一种无需重新设计模型的基于 CNN 的深度学习模型 (nn-MobileNet),用于视网膜疾病的诊断和监测,并证明其在多个任务上取得了优于目前大多数最先进方法的结果,包括糖尿病视网膜病变、眼底多种疾病检测和糖尿病黄斑水肿分类, - 自监督视觉 Transformer 用于新颖目标的 3D 姿态估计
本研究评估和展示了使用对比学习来训练深度模板匹配的自监督 CNNs 和 Vision Transformers 之间的差异。结果表明,Vision Transformers 在匹配准确度方面优于 CNNs,并且对于某些情况,预训练的 Vis - 从非常嘈杂和混杂的语音中识别关键词
本文提出了一种新的 Mix Training(MT)策略,用于探测嵌入在强干扰和混合语音中的低能量关键词,使用卷积神经网络(CNN)和 EfficientNet(B0/B2)架构,实验结果在 Google 语音命令数据集上表明,提出的混合训 - 深度学习模型综述与比较分析:CNN、RNN、LSTM、GRU
本文综述了不同类型的深度学习模型,包括卷积神经网络、循环神经网络、生成模型、深度强化学习和深度迁移学习,探讨了它们的结构、应用、优点和局限性,并使用 IMDB、ARAS 和 Fruit-360 三个公共数据集分析了六个著名深度学习模型的性能 - 基于视觉模型的行人动作预测分析
本文研究如何利用图像信息来预测行人的行为,提出了几种基于 CNN 和 Transformer 的时空模型,分析了这些模型的预测结果的可解释性,强调在行人行为预测问题中可解释性的重要性。
- ADLER -- 一种基于海森矩阵的自适应学习速率策略
本研究基于深度模型,提供了一种基于局部二次逼近的自适应 SGD 学习率策略,并将其与格点搜索 SDG 学习率及 Gauss-Newton 近似法进行比较。该策略的 Hessian 矩阵的正半定估计精确度较高,可以在分类任务中对不同结构(有或 - NexToU: 高效拓扑感知 U-Net 用于医学图像分割
本文提出了一种新的混合架构,NexToU,用于医学图像分割,其中融合了图神经网络和传统的 CNN、Transformer,表现优于其他最先进结构。
- 利用可微分结构搜索提升语音情感识别性能
本篇论文提出了一种基于 DARTS 的 CNN 和 LSTM 联合结构的语音情感识别模型,实验表明该方法优于当前最佳结果。
- NODE-ImgNet:一种以 PDE 为基础的有效且稳健的图像去噪模型
本文提出一种新型神经网络结构 ——NODE-ImgNet,整合了神经常微分方程和卷积神经网络块,是一种内在的偏微分方程模型,通过调用 NODE 结构,在图像去噪方面取得了增强的精度和参数效率。