循环图片注释的语义正则化
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法, 还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
本文提出了一种基于卷积神经网络和循环神经网络的框架,用于多标签图像分类,通过学习图像标签嵌入特征,显式地利用了图像标签之间的关联性,拥有较好的分类性能。
Apr, 2016
探索多级上下文循环神经网络的多种上下文提示,将其结合到分级卷积神经网络中,提供丰富的空间和语义信息,并使用注意力模型来有效地合并多个级别,以实现在图像标签方面的最新结果。
Jul, 2016
该研究构建了自定义正则化函数用于深度神经网络的监督训练,利用自动编码器得到正则化器,实现分段模型标签的训练,并在语义分割中展示了正则化策略对提高准确率的实验结果。
Apr, 2018
文章提出了一种针对图像-文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在Flickr30K数据集上达到了最先进的性能表现,MS-COCO数据集也表现具有竞争力。
Feb, 2020
本文提出了一种基于记忆机制的无监督图像描述模型——循环关系记忆网络(R2M),相较于GAN模型,该方法克服了句子生成中复杂和敏感的对抗学习,并且通过融合和循环两种记忆机制实现了从通用可视化概念到自然语言的翻译;我们在多项基准数据集上的实验证明,R2M在参数少、计算效率高等各方面均优于目前最先进的技术。
Jun, 2020
本研究探讨了一种新颖的“预训练标注-弱监督学习”范式,通过在图像分类任务中基于CLIP使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。
May, 2024
本研究解决了递归神经网络(RNN)在处理静态图像时的不典型应用,通常该任务由卷积神经网络(CNN)主导。论文提出将像素视为序列来处理图像,并设计了一种新的二维输入RNN结构,尤其适合嵌入式系统。实验结果表明,在COCO和CIFAR100数据集上,这一方法在小型网络中具有更好的性能。
Sep, 2024