- 通过动态路径定制实现图像字幕
本文探索一种新颖的动态网络以应对视觉和语言任务,其中推理结构针对不同输入动态定制。通过引入基本单元并在空间和通道运算领域分组,以构建丰富的路径空间和提升路径选择效率,我们设计了一个空间 - 通道联合路由器来根据输入样本的空间和通道信息进行路 - CVPR以草图为引导的局部离散扩散图像修复
本研究工作中,我们研究了基于草图引导的图像修复任务。与在捕捉语义细节方面表现出色的经过深入研究的自然语言引导图像修复不同,相对较少研究的草图引导修复提供了更强的用户控制力,可指定待修复对象的形状和姿势。作为这个任务的早期解决方案之一,我们引 - 3D-COCO:用于图像检测和 3D 重建模块的 MS-COCO 数据集扩展
我们介绍了 3D-COCO,这是原始的 MS-COCO 数据集的扩展,提供了 3D 模型和 2D-3D 对齐注释。3D-COCO 旨在实现计算机视觉任务,如可配置的 3D 重建或图像检测,通过使用文本、2D 图像和 3D CAD 模型查询。 - 目标检测更好的解释方法
本文提出了一种名为 D-CLOSE 的方法,用于解释任何目标检测模型的决策,并利用图像上的多层分割和结合过程来跟踪模型的行为。在 MS-COCO 数据集中使用 YOLOX 模型进行测试,表明我们的方法优于 D-RISE,可以提供更好的质量和 - CVPR面向开放词汇物体检测的目标感知蒸馏金字塔
本研究提出了一种基于目标感知的提取知识框架 OADP,包括 OAKE 模块和 DP 机制,通过自适应变换目标提案和引入全局和块知识提取以弥补对象精炼中的信息缺失。在 MS-COCO 数据集上,该方法取得了显著的改进。
- 学习组合视觉 - 语言神经模块用于图像字幕生成
本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法,其中包含四个编码器模块和一个解码器模块,并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性,实 - CVPR多模式图像检索的概率组合嵌入
本文在图像检索中,研究了使用多个多模态查询的检索场景,并提出了一种新的多模态概率组合器,用于检索具有多个多模态查询指定语义概念的目标图像,同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
- CVPR面向开放集合目标检测与发现
本文提出了 OSODD 任务,使用开放式对象检测器识别未知对象的同时,基于其视觉外观无需人力,进一步发现未知对象的类别。我们提出了使用开放式对象检测器预测已知和未知对象的两阶段方法,然后以无监督的方式研究预测对象的表示,并从未知对象集合中发 - ACLRefineCap: 图像字幕的概念感知细化
该论文提出了一种新型模型 RefineCap,使用解码器引导的视觉语义来完善语言解码器的输出词汇,并隐式地学习图像与视觉标签词之间的映射,其提出的视觉概念完善方法可允许生成器关注图像中的语义细节,从而生成更具有语义描述性的标题。在与以前基于 - InsPose:面向单阶段多人姿态估计的实例感知网络
使用实例感知动态网络的单阶段范例多人姿态估计方法,相对于两阶段方法在准确性和效率上都有更好的结果。
- 点作为查询:基于点的弱监督物体检测
我们提出了一种基于点注释的弱监督目标检测方法,并引入了 Point DETR 模型进行训练,实验结果表明该方法在 MS-COCO 数据集上使用 20% 的样本标注数据时(fully labeled data),取得了 33.3 AP 的性能 - 少样本语义分割的原型混合模型
本文提出了一种原型混合模型 (PMMs),该模型利用期望最大化算法从有限的支持图像中提取通道和空间语义,从而在激活查询图像中的物体的同时抑制背景区域,这种方法在 MS-COCO 数据集上 5-shot 分割性能提高了 5.82%。
- MM基于全局 - 局部辨别目标的细粒度图像描述
研究了如何提高生成图片标题的准确性,通过设计全局和局部辨别性约束,使生成的标题更加精细化和具体化,并在 MS-COCO 数据集上进行了评估和自检实验。
- ECCV更经济的预训练午餐:一种高效的目标检测范式
本文提出了 Montage 预训练的高效目标检测模型,它比 ImageNet 预训练使用更少的计算资源,通过从原始图像中提取有用的样本并以 Montage 方式组装作为输入,建立了全新的预训练模型输入模式和学习目标。在 MS-COCO 数据 - 图像文本匹配和检索的 Transformer 推理网络
本文介绍了使用 Transformer Encoder Reasoning Network 架构来进行图像与文本的自动匹配,以便于实现大规模信息检索。试验结果表明,本架构成功实现了该任务且获得了创新性的成果。
- CenterNet: 目标检测的关键点三元组
本文提出了一种有效的解决方案,通过使用代价最小的方式探索每个裁剪区域中的视觉模式,对目标检测中常见的边界框错误进行了改善,并在 MS-COCO 数据集上实现了 47.0%的 AP,性能比所有现有的一阶段检测器至少高 4.9%。同时,中心网展 - CVPR层次化文本图像合成的语义布局推断
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
- SIGIR将文本描述转化为高层视觉表征
本文介绍了一种利用神经网络模型 Text2Vis 在视觉特征空间中实现基于短文本描述信息的图像搜索方法,并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度,并在 MS-COCO 数据集上进行了初步结果呈现。
- 文本条件注意力图像字幕生成
提出了一种名为文本条件注意力的新型注意力机制,它允许生成器在给定先前生成的文本的情况下专注于特定的图像特征,通过在一个端到端的网络结构中联合学习图像嵌入,文本嵌入,文本条件注意力和语言模型。在 MS-COCO 数据集上进行了大量实验,实验结