本文提出了一种名为 LIIF 的局部隐式图像函数,通过输入图像坐标和周围的 2D 深度特征,预测给定坐标的 RGB 值,训练得到的连续表示可以呈现在任意分辨率下,甚至可以外推到高达 x30 的分辨率,同时 LIIF 还在 2D 中构建了离散和连续表示之间的桥梁。
Dec, 2020
利用概念为基础的可解释图像表示(CEIR)方法,结合自监督学习和变分自编码器(VAE),通过投影输入图像到概念向量空间并学习潜在表示,实现高质量的无监督聚类以及从开放世界图像中提取相关概念的能力。
Dec, 2023
通过引入细节增强的注意力隐式表示(DEAR)方法,该研究旨在解决低分辨率图像中的遗失区域恢复和生成任意高分辨率的图像,并通过使用单一模型在高质量完成的图像方面取得成功。
Jul, 2023
本研究介绍了一种基于先验指导的远程感知图像 - 文本检索学习范式,通过利用先验知识进行自适应学习,设计了 PIR-ITR 框架解决视觉语言理解任务中语义噪声问题。同时,为了进一步改进开放域检索性能,提出了 PIR-CLIP 框架,利用领域特定的 CLIP 模型解决远程感知视觉 - 语言表示中的语义噪声问题。通过综合实验验证,PIR 能够增强视觉和文本表示,并在两个基准数据集 RSICD 和 RSITMD 上优于封闭域和开放域检索的最先进方法。
May, 2024
该论文的研究旨在使用一组集成的视觉区域和相应的文本概念来表示图像,从而反映出特定的语义。为此,研究人员构建了互相迭代注意力(MIA)模块,并将该方法在图像字幕和视觉问答等任务中得到了验证。结果表明,该方法对于图像相关应用具有广泛的泛化能力,并且能将基线模型的性能提升到了一个新的水平。
May, 2019
自主训练自回归模型在计算机视觉中的发展滞后于自然语言处理,本研究提出了一种基于语义感知的自回归图像建模方法,通过对补丁的特征相似性进行排序,将自回归建模从语义补丁扩展到非语义补丁,并探索了使用补丁特征作为预测目标的方法,实验表明该方法在图像分类、目标检测和分割等多个任务中实现了卓越的性能表现。
提出了一种使用新型的连贯的语义注意力(CSA)层和深度生成模型的方法来进行图像修复的深度学习方法,能够更好地模拟孔特征之间的语义相关性,经过在多个数据集上的验证,该方法在图像修复领域取得了优异的成果。
本文提出了一种名为 Semantic-Aware Knowledge prEservation (SAKE) 的方法,在预训练模型的基础上通过 fine-tunes 和利用语义信息来保留图像检索中先前获得的知识,从而在零样本学习的场景下实现更好的性能表现。
Apr, 2019
本文提出了一种有效的 “适应和对齐” 方法来解决无人监督草图图像检索(ZS-SBIR)中的关键挑战,并通过与更语义化的文本嵌入相对齐实现了从已见类到未见类的知识转移。
May, 2023
提出了一种新型的语义感知通信体系结构,称为 iSAC,它具有投影语义编码器和生成对抗性模仿学习等组件,旨在有效地传输、学习和解释源和目标用户之间的隐藏信息,从而提高用户的体验质量(QoE)。与现有解决方案相比,iSAC 需要更少的通信和计算资源,并且对通信丰富的语义含义和关系进行扩展缩放。
Jun, 2023