- 细化点击率预测模型的相互学习
通过模型之间的相互学习算法,提高了点击率(CTR)预测模型在 Criteo 和 Avazu 数据集上的性能,相对提升了 0.66%。
- 多路径神经架构搜索的稳健三维人脸对齐
通过神经架构搜索的多路径单次搜索算法,提出了一种新的提高不同面部姿势下人脸对齐准确性的方法。实验结果表明,该方法在稀疏对齐和密集对齐方面均具有卓越性能。
- PixMamba: 在双层架构中利用状态空间模型进行水下图像增强
使用 PixMamba 和 State Space Models,PixMamba 能够有效地处理水下图像增强的问题,提供了全局依赖建模的能力,并通过 EMNet 和 PixNet 两级策略实现了高效的全局上下文信息获取和视觉上更好的结果。
- 通过大量数据增强改进基于深度学习的颅骨缺损自动重建:从图像配准到潜在扩散模型
模拟和制造个性化颅骨植入物是可以缩短患有颅骨损伤患者等待时间的重要研究领域。个性化植入物的建模可以通过深度学习方法部分自动化,然而,该任务在使用以前未见过的数据分布时难以泛化,难以在实际临床环境中使用研究成果。鉴于获取地面真实注释的困难,必 - 多尺度深度特征统计的无意见盲图像质量评估
采用深度学习方法可以提高盲目图像质量评估(BIQA)领域的质量评估,但这些方法通常需要使用大量的人为评分数据进行训练。为了弥合这一差距,本文提出了一种将预训练视觉模型的深度特征与统计分析模型结合的多尺度深度特征统计(MDFS)模型,用于实现 - 基于多模态数据的深度学习辅助放射学报告生成调研
通过深度学习方法,欧州央行会公布最新的 Automatic radiology report generation 的方法,并且总结了该领域内多模态数据获取、数据融合等关键技术的发展,并为进一步研究提供了详尽的信息。
- CVPRFinePOSE: 经控制的高精度 3D 人体姿势估计
3D 人体姿势估计任务使用 2D 图像或视频预测 3D 空间中的人体关节坐标。本论文提出了一种基于扩散模型的 Fine-Grained Prompt-Driven Denoiser(FinePOSE)用于 3D 人体姿势估计,通过构建细粒度 - 深空可分离蒸馏用于轻量级声场分类
为了解决当前深度学习方法在声场分类中计算复杂度高、性能不理想的问题,我们提出了一种深度可分离蒸馏网络。该网络在对 log-mel 频谱图进行高低频分解的同时显著降低了计算复杂度,并特别设计了三种轻量级算子,包括可分离卷积、正交可分离卷积和可 - CVPRAIS 2024 用户生成内容视频质量评估挑战:方法与结果
该论文综述了 AIS 2024 视频质量评估(VQA)挑战,着重于用户生成内容(UGC)。该挑战旨在收集能够估计 UGC 视频感知质量的基于深度学习的方法。挑战中的用户生成视频来自 YouTube UGC 数据集,包括多样的内容(体育、游戏 - VIFNet:一种用于图像去雾的端到端可见 - 红外融合网络
设计了一个可见 - 红外融合网络用于图像去雾,并通过多尺度深度结构特征提取模块和不一致性加权融合策略,充分利用红外图像的信息来改善效果,实验证明 VIFNet 优于现有方法。
- 深层相位编码图像先验
我们提出一种名为 “深度相位编码图像先验” 的新方法,通过仅使用捕获的图像和成像系统的光学信息,从编码相位图像中共同恢复深度地图和全焦图像。
- TSNet: 图像去雾的两阶段网络,结合多尺度融合与自适应学习
该研究提出了一种名为 TSNet 的两阶段图像去雾网络,主要由多尺度融合模块(MSFM)和自适应学习模块(ALM)组成,通过增强泛化性能和恢复纹理细节来实现更好的去雾效果。实验证明,相较于之前的方法,TSNet 在合成和真实数据集上表现出卓 - LITE:多模态大型语言模型建模环境生态系统
提出了一种用于环境生态系统建模的多模式大型语言模型 LITE,通过将不同的环境变量转化为自然语言描述和折线图像来统一这些变量,并利用统一编码器来捕捉不同模态的空间 - 时间动态和相关性,借助领域指令来融合多模态表示进行预测,从而显著提高了环 - 多域地标检测的自适应查询提示
通过利用 Transformer 架构和自适应查询提示组件 (AQP),我们提出了一个通用模型用于多领域地标检测,并采用轻量级的 MLD 解码器和 AQP 实现了在多个指标上的最优表现。
- GAMA-IR:全球累加多维均值用于快速图像恢复
通过使用浅层网络和高效的块实现全局加性多维均值操作,我们介绍了一种图像复原网络,既具有快速执行速度又能提供优秀的图像质量。通过广泛的实验证明,我们的网络在各种任务上实现了与现有的最先进图像复原网络相媲美甚至更优秀的结果,并且具有较低的延迟。
- 扩散攻击:利用稳定扩散进行自然图像攻击
通过结合风格转移的方法,我们提出了一个框架来针对虚拟现实中的对抗性攻击,制造具有自然风格的对抗输入,以达到最小可探测性和最大自然外观,同时保持卓越的攻击能力。
- 从手工特征到 LLMs:机器翻译质量估计的简要调查
机器翻译质量评估(MTQE)是实时估计机器翻译文本质量的任务,不需要参考翻译,对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。
- 冠状动脉语义标记的多图图匹配
该研究提出了一种基于多图图匹配算法(MGM)的冠状动脉语义标签方法,通过融合解剖图结构、影像学特征和语义映射,实现了冠状动脉语义标签的准确率为 0.9471,为冠状动脉分析提供了一种新的工具。
- EndoOOD:胶囊内镜诊断中的不确定性感知型超出分布检测
无线胶囊内窥镜(WCE)是一种无创诊断方法,能够可视化胃肠道。基于深度学习的方法已经在使用 WCE 数据进行疾病筛查方面显示出有效性,减轻了医疗专业人员的负担。然而,现有的胶囊内窥镜分类方法大多依赖于预定义的类别,难以识别和分类未定义的数据 - PSC-CPI: 高效且可泛化的多尺度蛋白质序列 - 结构对比用于化合物 - 蛋白相互作用预测
提出了一种新颖的多尺度蛋白质序列 - 结构对比 (CPI) 预测框架 (PSC-CPI),通过在蛋白质序列和结构之间进行内部模态和交叉模态对比,从多个尺度捕捉了蛋白质序列和结构之间的依赖关系,并且具有良好的模型普适性。