- 跨领域可变形图像对齐的编码匹配准则
我们提出了一种基于深度学习的注册方法,旨在解决不同域中的可变形注册问题。通过设计一个注册专用的编码器,模拟了图像特征和结构特征的匹配准则,有助于提高注册准确性和适应性,并通过单次学习更新编码器以适应不同域。
- 通过文本在 ViTs 中分解和解释图像表示 超越 CLIP
我们提出了一个通用框架,能够识别不同模型部件在视觉转换器(ViTs)中的作用,并通过文本解释。应用于多种 ViT 变种,获得不同组件在特定图像特征方面的作用,以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。
- DWE+: 多模态实体链接增强框架
通过提出细粒度图像特征提取、视觉属性融合和语义丰富的方法,DWE + 模型在多模态实体链接中取得了显著的性能提升,优化了相关数据集并达到了最先进的表现。
- MVD$^2$: 多视角扩散的高效多视角三维重建
MVD$^2$ 是一种有效的三维重建方法,通过聚合图像特征并将其解码成三维网格,改善了多视角扩散生成图像的三维生成质量,且在不同的多视角扩散方法下具有快速和稳健的性能。
- UMAIR-FPS: 用户感知的多模态动画插画融合与绘画风格推荐
我们提出了 User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style(UMAIR-FPS)来弥补现有动漫推荐系统在整合图像 - 高分辨率遥感图像中交互建筑分割的增强自动质量评估网络
我们介绍了增强型自动质量评估网络(IBS-AQSNet),这是一种创新的解决方案,用于评估高分辨率遥感图像中的交互式建筑分割质量。我们的方法通过识别遗漏和错误的分割区域来解决这个分割质量评估的新挑战。实验证明,我们提出的方法在自动化分割质量 - AAAI基于图像的抬举 —— 利用图像线索进行精确的三维人体姿势估计
深度学习技术用于估计人体姿势时,由于仅凭借 2D 姿势估计存在深度模糊问题,这篇论文提出了一种新的框架,通过利用图像特征和逐步学习的方法解决了泛化能力差的问题,并在多个数据集上取得了最先进的性能。
- 多模态潜空间学习用于语言模型的思维链推理
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
- DGNet: 动态梯度引导网络与噪声抑制方法用于水下图像增强
利用预测图像动态更新伪标签,将动态梯度添加到优化网络的梯度空间,通过特征恢复与重建模块和频率域平滑模块降低各种类型噪声对网络性能的影响,实现了在水下图像增强方面的显著优势。
- DINO-Mix: 优化视觉地点识别的基础视觉模型和特征混合
通过利用 DINOv2 模型作为骨干网络对图像进行修剪和微调以提取鲁棒的图像特征,我们提出了一种名为 DINO-Mix 的新颖的 VPR 架构,通过基础视觉模型的强大图像特征提取能力和基于 MLP-Mixer 的特征聚合模块,实现全局鲁棒和 - 使用条件扩散概率模型表征有丝分裂图像特征
利用概率扩散模型,根据有关有丝分裂的标签条件合成细胞核斑块,进而生成一系列模拟图像,用于识别与有丝分裂相关的不同图像特征,如细胞质颗粒度、核密度、核不规则性以及核与细胞体之间的高对比度,提供病理学家解释和传达识别有丝分裂特点的新工具。
- ScaleNet:一种有限信息的无监督表示学习方法
本研究提出了一种名为 ScaleNet 的简单高效的无监督表示学习方法,通过使用多尺度图像来增强有限信息条件下卷积神经网络 (ConvNets) 的性能,并展示了 ScaleNet 方法在旋转预测任务上的优越性及其对其他模型的分类任务的改进 - 视觉背景对噪声多模态神经机器翻译的影响:英语到印度语言的实证研究
利用多模态信息在神经机器翻译 (NMT) 中的有效性进行了研究,发现图像在大规模预训练的单模态 NMT 系统中可能是多余的,同时介绍了合成噪声来评估图像是否有助于模型处理文本噪声,多模态模型在嘈杂环境中微弱地胜过纯文本模型,实验证明视觉背景 - 从显式类嵌入的角度提升语义分割
本文提出了 ECENet,它是一种新的分割范式,通过在与多阶段图像特征交互过程中显式地获得和增强类别嵌入,探索了传统解码过程并探索了分割掩模和类别嵌入之间的反向信息流,同时通过特征重建模块来确保骨干中特征的可区分性和信息丰富度,实验结果表明 - TDG: 文本引导的领域泛化
通过引入额外的文本信息,本文提出了一种新的基于文本引导的域泛化(TDG)范式,其中包括自动词语生成、基于提示学习的文本特征生成以及利用图像特征和生成的文本特征来训练分类器,提高域泛化性能的技术都以一种易于实现的方式融入到 TDG 中。在几个 - 亮度受限的对抗攻击贴片
本文提出了一种 BrPatch 亮度限制贴片,通过使用光学特征来有效降低显著性,同时保持图像独立性,并分析了各种图像特征对攻击贴片在真实场景中的有效性的影响。
- ACLFormNetV2:面向表单文件信息提取的多模态图形对比学习
FormNetV2 引入了一种集中的多模态图形对比学习策略,将自监督预训练统一为一个损失,通过提取与图形边缘相连的一对令牌之间的边界框内的图像特征,捕捉更有针对性的视觉线索,从而在 FUNSD、CORD、SROIE 和 Payment 基准 - CVPR通过放松的共同命运和视觉分组从视频中引导物体性质
本研究探讨了从无标签视频中学习物体分割的方法:首先从视觉共同命运与物体出现统计上进行特征学习,再基于视频内部和跨视频的外观分组进行细化,应用 ResNet 和卷积头只需无监督学习即可实现视频目标分割,相对于 DAVIS16 / STv2 / - 自监督反事实度量学习用于去偏视觉问答
我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题,该方法可以自适应地选择与问题相关的视觉特征来回答问题,从而减少与问题不相关的视觉特征对推断答案的负面影响,实验证明了我们方法对 VQA-CP 数据集具有提升效果。
- 基于多模态融合框架和集成学习的谣言分类
本研究提出了一个基于图像特征和集成学习算法的 MONITOR 框架,用于在社交网络中评估信息真实性,并在两个真实数据集上进行广泛实验,结果显示 MONITOR 优于现有的机器学习基线,并且集成模型显着提高了 MONITOR 的性能。