- 使用神经算子建模磁滞
提出了使用神经算子对磁滞建模的方法,以解决常规神经网络方法难以推广至新输入磁场的问题;通过深度算子网络和傅里叶神经算子对新一阶反向曲线和次环进行预测,并提出了一个无速率相关的傅里叶神经算子用于在采样速率不同的情况下预测材料响应。数值实验证明 - 应用注意力机制整合的网络,在 MR 图像重建过程中共享低秩、图像和 k - 空间信息,实现单次呼吸保持心脏电影成像
提出了一种新颖的深度学习网络 A-LIKNet,它采用平行分支结构,在多个领域(包括低秩、图像和 k 空间)中嵌入信息,通过耦合的信息共享层实现领域之间的信息交换,并引入注意机制来赋予更重要的线圈或时间帧更大的权重,实现了高速重建高质量的动 - UADSN:面神经分割的不确定性感知双流网络
我们提出了一个不确定性感知的双流网络(UADSN),包括 2D 分割流和 3D 分割流,用于面神经在 CT 扫描中的定位和分割。通过使用两个流的预测结果来识别不确定区域,并引入一致性损失来监督这些区域的分割,同时在 U 型网络的跳跃连接中引 - 细化点击率预测模型的相互学习
通过模型之间的相互学习算法,提高了点击率(CTR)预测模型在 Criteo 和 Avazu 数据集上的性能,相对提升了 0.66%。
- 多路径神经架构搜索的稳健三维人脸对齐
通过神经架构搜索的多路径单次搜索算法,提出了一种新的提高不同面部姿势下人脸对齐准确性的方法。实验结果表明,该方法在稀疏对齐和密集对齐方面均具有卓越性能。
- PixMamba: 在双层架构中利用状态空间模型进行水下图像增强
使用 PixMamba 和 State Space Models,PixMamba 能够有效地处理水下图像增强的问题,提供了全局依赖建模的能力,并通过 EMNet 和 PixNet 两级策略实现了高效的全局上下文信息获取和视觉上更好的结果。
- 通过大量数据增强改进基于深度学习的颅骨缺损自动重建:从图像配准到潜在扩散模型
模拟和制造个性化颅骨植入物是可以缩短患有颅骨损伤患者等待时间的重要研究领域。个性化植入物的建模可以通过深度学习方法部分自动化,然而,该任务在使用以前未见过的数据分布时难以泛化,难以在实际临床环境中使用研究成果。鉴于获取地面真实注释的困难,必 - 多尺度深度特征统计的无意见盲图像质量评估
采用深度学习方法可以提高盲目图像质量评估(BIQA)领域的质量评估,但这些方法通常需要使用大量的人为评分数据进行训练。为了弥合这一差距,本文提出了一种将预训练视觉模型的深度特征与统计分析模型结合的多尺度深度特征统计(MDFS)模型,用于实现 - 基于多模态数据的深度学习辅助放射学报告生成调研
通过深度学习方法,欧州央行会公布最新的 Automatic radiology report generation 的方法,并且总结了该领域内多模态数据获取、数据融合等关键技术的发展,并为进一步研究提供了详尽的信息。
- Light-SLAM:基于 LightGlue 的鲁棒深度学习视觉 SLAM 系统在挑战性光照条件下的应用
提出一种基于 LightGlue 深度学习网络的视觉 SLAM 系统,用于解决传统基于手工特征和深度学习方法在低光和强光变化环境下鲁棒性和准确性不足的问题。在 KITTI、EuRoC、TUM 和 4Season 四个公开数据集以及实际校园场 - CVPRFinePOSE: 经控制的高精度 3D 人体姿势估计
3D 人体姿势估计任务使用 2D 图像或视频预测 3D 空间中的人体关节坐标。本论文提出了一种基于扩散模型的 Fine-Grained Prompt-Driven Denoiser(FinePOSE)用于 3D 人体姿势估计,通过构建细粒度 - 深空可分离蒸馏用于轻量级声场分类
为了解决当前深度学习方法在声场分类中计算复杂度高、性能不理想的问题,我们提出了一种深度可分离蒸馏网络。该网络在对 log-mel 频谱图进行高低频分解的同时显著降低了计算复杂度,并特别设计了三种轻量级算子,包括可分离卷积、正交可分离卷积和可 - CVPRAIS 2024 用户生成内容视频质量评估挑战:方法与结果
该论文综述了 AIS 2024 视频质量评估(VQA)挑战,着重于用户生成内容(UGC)。该挑战旨在收集能够估计 UGC 视频感知质量的基于深度学习的方法。挑战中的用户生成视频来自 YouTube UGC 数据集,包括多样的内容(体育、游戏 - VIFNet:一种用于图像去雾的端到端可见 - 红外融合网络
设计了一个可见 - 红外融合网络用于图像去雾,并通过多尺度深度结构特征提取模块和不一致性加权融合策略,充分利用红外图像的信息来改善效果,实验证明 VIFNet 优于现有方法。
- 深层相位编码图像先验
我们提出一种名为 “深度相位编码图像先验” 的新方法,通过仅使用捕获的图像和成像系统的光学信息,从编码相位图像中共同恢复深度地图和全焦图像。
- TSNet: 图像去雾的两阶段网络,结合多尺度融合与自适应学习
该研究提出了一种名为 TSNet 的两阶段图像去雾网络,主要由多尺度融合模块(MSFM)和自适应学习模块(ALM)组成,通过增强泛化性能和恢复纹理细节来实现更好的去雾效果。实验证明,相较于之前的方法,TSNet 在合成和真实数据集上表现出卓 - LITE:多模态大型语言模型建模环境生态系统
提出了一种用于环境生态系统建模的多模式大型语言模型 LITE,通过将不同的环境变量转化为自然语言描述和折线图像来统一这些变量,并利用统一编码器来捕捉不同模态的空间 - 时间动态和相关性,借助领域指令来融合多模态表示进行预测,从而显著提高了环 - 多域地标检测的自适应查询提示
通过利用 Transformer 架构和自适应查询提示组件 (AQP),我们提出了一个通用模型用于多领域地标检测,并采用轻量级的 MLD 解码器和 AQP 实现了在多个指标上的最优表现。
- GAMA-IR:全球累加多维均值用于快速图像恢复
通过使用浅层网络和高效的块实现全局加性多维均值操作,我们介绍了一种图像复原网络,既具有快速执行速度又能提供优秀的图像质量。通过广泛的实验证明,我们的网络在各种任务上实现了与现有的最先进图像复原网络相媲美甚至更优秀的结果,并且具有较低的延迟。
- 扩散攻击:利用稳定扩散进行自然图像攻击
通过结合风格转移的方法,我们提出了一个框架来针对虚拟现实中的对抗性攻击,制造具有自然风格的对抗输入,以达到最小可探测性和最大自然外观,同时保持卓越的攻击能力。