- 深度学习音频生成方法概述
本文综述了音频生成中深度学习模型开发所使用的典型技术,包括音频表示、深度学习架构变体及其实际应用,以及常用的评估指标。该文章旨在为音频生成领域的初学者和新手提供对当前最先进的音频生成方法及相关研究的全面理解,以供未来研究探索。
- BubbleID: 泡泡界面动力学分析的深度学习框架
BubbleID 是一种先进的深度学习架构,通过 Mask R-CNN 强化分割和 SORT 跟踪技术,能够全面识别沸腾图像序列中泡沫的静态和动态属性,包括位置、尺寸、界面形状、速度以及动态事件,如泡沫离开。同时,在不同加热表面和操作设置下 - FIDLAR:用于洪灾缓解的预测引导深度学习架构
在沿海河流系统中,通过使用诸如水坝、闸门、泵和水库等水力结构,以预测前释放水来减轻或甚至预防在暴风雨或大潮期间频繁发生的洪水,可以在很大程度上降低生命和财产的威胁。本文提出了一种名为 FIDLAR 的预测通知深度学习架构,用于实现快速和最优 - FOD-Swin-Net:基于变压器的深度模型进行纤维定向分布的角度超分辨率
通过使用自动角度超分辨率从更快的采集中来克服当前长时间的磁共振成像数据得出纤维定向的问题,我们在公开可用的 Human Connectome Project (HCP) DW-MRI 数据上训练了一种基于变压器的深度学习架构,FOD-Swi - 知识引导的脑电图表示学习
提出了一种自监督模型用于 EEG 信号分析,采用基于状态空间的深度学习架构,提供了稳健性能和显著参数效率,同时提出了一种新颖的知识引导的预训练目标,改善了嵌入式表示学习和下游任务的性能。
- 构建点云清洗、平面检测和语义分割的框架
提出了一个用于建筑模型的框架,针对点云清理、平面检测和语义分割等挑战进行处理,通过自适应阈值技术来清除异常值,并采用稳健的 RANSAC 算法进行平面检测和基于 PointNet 架构的深度学习方法进行建筑物的语义分割,结果表明该框架在建筑 - $μ$GUIDE: 通用不确定性驱动推断的深度学习映像微结构框架
用新的深度学习框架和高效的后验分布采样,提出了一个通用的贝叶斯框架 μGUIDE,用于从任何给定的生物物理模型或 MRI 信号表示中估计组织微结构参数的后验分布,以弥补传统贝叶斯方法的高计算和时间成本。
- 利用 NLP 技术增强医疗科室对患者的分配
通过使用关键词训练一个深度学习架构,我们提出了一个不需要预训练与微调,可以直接应用于特定环境进行多标签分类的方法,该方法在文本分类中显著提高了性能,是一种有潜力的替代传统方法的有效选择,并在各种医学领域具有潜在应用。
- 基于 Praxis 数据集的手势分类:牺牲准确率以换取经济性
通过对 PRAXIS 数据集中的身体关键点坐标进行分析,我们提出了比先前模型更有效的手势分类器。利用窗口技术与深度学习架构(如循环神经网络),我们仅使用身体关键数据就实现了 70.8% 的准确率。此外,我们通过长短时记忆(LSTM)提取和分 - 揭示学习式局部搜索启发式的界限:你是否最强大的弱者?
我们对神经网络与组合优化中的局部搜索算法进行了综合研究,结果表明基于禁忌搜索的简单学习启发式方法在性能和泛化性方面超过了最先进的学习启发式方法,挑战了现有假设,并为组合优化的未来研究和创新开辟了新的方向。
- 科学数据的 Transformers:天文学的教育性回顾
ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers,从自然语言处理开始,transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家, - 基于 CMOS 传感器阵列的微尺度三维电容层析成像
采用电容层析成像技术 (ECT),利用 CMOS 微电极阵列实现对聚合物微球和细菌生物膜的显像,达到 10 微米的空间分辨率。提出了深度学习架构和改进的多目标训练方案,用于从传感器测量中重建出平面外的介电常数图。实验结果表明,该方法能够解析 - TransNet:基于迁移学习的网络人体动作识别
通过将复杂的 3D-CNN 解构为 2D - 和 1D-CNN,本文提出了一种简洁而多功能的端到端深度学习架构 TransNet 用于人体动作识别(HAR),通过与其他领域的预训练 2D-CNN 模型相结合,TransNet 可以有效地提高 - LUNet:深度学习用于高分辨率眼底图像的细动脉和细静脉分割
利用眼底数字成像技术,通过主动学习构建了一个新的数据集,其中包含由医学生及眼科医师审查的 240 个手动分割的视网膜小动脉和小静脉,开发了一种名为 LUNet 的新型深度学习架构,用于高分辨率的动静脉分割,并证明 LUNet 在多个测试集上 - 通过符号化注意层发现具有预测性的关联物体符号
我们提出并实现了一种新的深度学习体系结构,用于在桌面环境中,基于机械臂机器人与多个对象的自监督连续交互,发现对象及其关系的符号表示。
- 通过任务分解学习抽象视觉推理:Raven 渐进矩阵的案例研究
基于变压器蓝图的深度学习架构,解决抽象推理任务中的挑战,通过预测个体对象及其布局的视觉属性来选择答案,并在实验评估中优于现有方法,提供关于推理的有趣见解和部分解释,同时免疫某些 RPM 基准中已知的偏见。
- 通过视觉注意模块进行高动态范围成像
本研究论文提出了一种基于深度学习架构的新模型,该模型利用来自图像中最可见区域的信息,通过视觉注意力模块(VAM)的分割策略获取,用于生成最终的高动态范围(HDR)图像,实验结果表明,该方法在大多数最先进的算法中表现优异。
- 多帧同时温度估计与非均匀性校正
通过深度学习架构和光学图像获取模型,我们提出了一种新颖的方法,能够从低成本的微测温红外相机拍摄的多帧图像中同时估计温度和进行非均匀性校正,该方法在实验证明相比昂贵的科学级热像仪,具有显著的性能提升和准确度。
- GPM 集成多卫星获取的全球降水预报:一种 U-Net 卷积 LSTM 架构
本文提出了一种基于深度学习架构的降水模拟方法,该方法可以全球范围内每 30 分钟进行一次未来 4 小时的预测。该架构融合了 U-Net 和卷积长短期记忆(LSTM)神经网络,并使用来自全球预报系统(GFS)的集成多卫星降水检索数据(IMER - 自动语音识别技术在海上 VHF 通信领域中的适应与优化
本文介绍了一个多语种自动语音识别器,可将 VHF 无线电信号自动转换为文本,针对海上无线电通信的挑战,提出了 marFM 的深度学习架构,分析并评估了该 ASR 模型对各种海上业务数据的转录性能。