- TokenLearner:8 个学习到的令牌能为图像和视频做什么?
本文介绍了一种新的视觉表示学习方法,它依赖于少量自适应学习的令牌,并适用于图像和视频理解任务。与依赖手动设计的分割策略和处理大量密集抽样补丁以获取注意力的方法不同,我们的方法学习从视觉数据中挖掘重要令牌,从而有效地找到一些重要的视觉令牌,并 - ICLRSI-Score:一个图像数据集,用于细粒度分析对象位置、旋转和尺寸的鲁棒性
研究深度神经网络在图像理解中的鲁棒性,通过使用 SI-Score,一个合成的数据集,对物体的位置、旋转和大小等因素进行了细致的分析,比较了 ResNets、Vision Transformers 和 CLIP 之间的差异。
- 无自然图像的预训练
该论文提出了一种新颖的概念 —— 公式驱动的监督学习,利用分形形象自动生成命名类别标签,从而实现图像预训练,尽管所提出的 FractalDB 预训练模型在所有设置中并未完全胜过人类注释的数据集,但在部分情形下其预测准确率优于 ImageNe - 基于注意力机制的高效图像变换及蒸馏训练
通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在 ImageNet 上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师 - 学生策略,以获得竞争性结果。
- CVPR多任务三元流网络实现密集关系图像字幕生成
本篇研究提出了一种新的图像描述任务:密集关系字幕,该任务旨在生成多个字幕,涉及视觉场景中对象之间的关系信息。通过使用多任务三重流网络(MTTSNet)训练识别 POS(主客观谓宾分类)并生成字幕,同时使用明确的关系模块来改进它的表现。该模型 - 使用场景图进行视觉关系检测:一项调查
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
- 结合视觉和局部池化文本特征的细粒度图像分类和检索
本文提供了一种新颖的模型,使用 PHOC 描述符构建一组文本词袋以及 Fisher 向量编码,以处理文本与视觉数据之间的内在关系,从而在图像细分类和图像检索任务中获得最先进的结果。
- 基于多个线索的图神经网络用于图像理解:以群体情绪识别和事件识别为例
本文提出了一种基于多个线索的图神经网络(GNN)用于图像理解,相比于传统的特征和决策融合方法,GNN 能够在不同模型提取的特征之间传递信息。本文通过两个图像理解任务验证了 GNN 的性能,即组级情感识别(GER)和事件识别。实验表明,该方法 - ICCV图像字幕层次分析
该论文提出了一种基于分层结构的图像编码器,通过将图像分解为实例级别、区域级别和整体级别的层次结构,引入了分层解析(HIP)架构,大大提高了基于神经网络的图像描述性能,结合图卷积网络(GCN)可以进一步提高描述性能。
- ICCV无配对训练样本的短语本地化
该论文提出了一种基于弱监督方法且无需特定任务数据的短语定位方法,利用图像中检测到的对象、场景和颜色探究了衡量语义相似性的不同方法,并在两个短语定位数据集上进行了实验,结果表明该方法超越了所有弱监督方法,并且表现出很强的任务基线能力。
- ICDAR 2019 场景文本视觉问答竞赛
本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集,包括 23038 张图像和 31791 个文本实例答案,涵盖广泛的情景。该竞赛共有 3 个递增的任务,需要理解场景中的文本并回答问题。提出了一种 - 图像理解中的知识和推理整合
本文综述了各种代表性的推理机制、知识整合方法及其相应的图像理解应用,讨论了结合外部知识与神经网络的关键技术,并探讨了提高推理能力的潜在途径。
- ACL通过参考生成的段落标题来提高视觉问答能力
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高 - 视觉关系检测和场景图生成的上下文翻译嵌入
提出一种基于 VTransE 方法的上下文增强翻译嵌入模型,可以捕捉常见和罕见关系,进而提升图像理解能力。该模型可以有效地识别已知关系和未知关系,同时在多个基准测试中取得了优秀的表现,特别是在场景图生成任务中表现尤为突出。
- CVPR密集关系字幕生成:基于三元组网络的关系字幕生成
通过引入 “关系字幕” 任务,使用多任务三流网络(MTTSNet)实现 POS 标签指导图像说明的正确顺序,从而提高图像理解能力,相应地,生成更多样化、更丰富的信息表达。
- 共享语义表示的转移变换
本论文讨论了如何在不需要训练样本的情况下学习图像的语义表示,并展示了如何从另一个领域学习并应用变换操作到目标领域实现图像检索。
- 基于一次学习的物体关系检测
该研究提出了一种称为 Semantics Induced Learner(SIL)的模型,用于解决图像理解中的对象关系检测任务,结合了自底向上和自顶向下的注意力机制,通过一次学习就能够有效地和稳健地适应大量具有不同外观的对象关系,证明了该框 - ECCVZoom-Net:挖掘深度特征交互进行视觉关系识别
本研究提出了 Zoom-Net 算法,该算法通过特征互动实现了在不使用语言先验知识的情况下,识别复杂关系的出色表现。实验表明该算法与其他采用显式的语言交互模型的算法相比,能够大幅提高性能。
- 超越叙述描写:通过多方对抗训练从图像生成诗歌
本文研究以图像为输入生成多行诗歌的任务,通过提出多个深度神经网络模型,包括一个深度视觉 - 诗歌嵌入模型、一个多模式鉴别器和一个诗歌风格鉴别器,并且通过多重对抗性训练方法,实现跨模态关联和保证诗意的诗歌生成能力。实验结果表明,本论文提出的方 - 基于观察者中心线框模型的 3D 解释器网络
本文提出了一种称为 3D Interpreter Networks (3D-INN) 的网络,该网络旨在从单个图像中提取 3D 对象的姿态和结构信息。该网络基于 2D-annotated 真实图像和合成 3D 数据进行训练,并通过中间表示关