Pix2seq: 一种用于目标检测的语言建模框架
本研究提出了一个名为 Point2Seq 的简单而有效的框架,用于从点云中检测 3D 物体。与以往的方法不同,我们明确地建立了 3D 物体属性之间的依赖关系,将 3D 物体视为单词序列,并以自回归方式从 3D 场景中解码单词,进而得到所有 3D 物体的序列,并最终通过基于相似性的序列匹配自动分配到相应的真实值。
Mar, 2022
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本文提出一种基于共享像素到序列接口的框架,将计算机视觉中的四种不同任务(对象检测、实例分割、关键点检测和图像字幕)的输出形式都改为序列输出,并且可以通过短提示来实现任务特定的输出,证明可以用单个模型架构和损失函数在这些任务上进行训练,达到与传统模型相似的性能表现。
Jun, 2022
本论文提出了一种新颖的图像字幕生成模型,可在生成自然语言描述的同时,引入与图像实体检测相关的概念填充,通过生成带有显式图像区域链接的句子模板,并利用检测到的可视化概念填充这些区域,实现端到端的可微分框架,并在标准图像字幕生成和新物体字幕生成上达到了当前最先进水平。
Mar, 2018
本论文提出了一个新的序列到序列学习框架 SeqTrack 来进行视觉跟踪,将视觉跟踪作为一个序列生成问题,该问题可以在自回归的基础上预测物体的边界框,SeqTrack 架构只采用一个简单的编码器解码器变压器架构,并在多个基准测试上达到了竞争性能水平。
Apr, 2023
利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类,从而解决大规模获取标注数据的难题,并通过在学习过程中使用这些伪标签,展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。
Jul, 2022
OBJ2TEXT 是基于 LSTM 网络的序列到序列模型,可用于抽象场景的描述生成,加入状态 - 最先进的物体探测器后可将图像的描述评分从 0.863 提升到 0.950(CIDEr score),并能有效表示物体的空间关系。
Jul, 2017
本文提出了一种名为 P2D 的新型三维物体检测模型,它将预测方案整合到检测框架中,显式提取和利用运动特征,以及引入基于预测物体信息的 Bird's-Eye-View(BEV)特征的新型时间特征聚合方法,结果表明,与基线相比,P2D 可以显著提高检测精度。
Jun, 2023
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
通过将图像嵌入到文本令牌的自回归预测过程中,我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合,其中包括将不同标签的令牌建模为独立,并将图像令牌视为前缀。我们提出了一种高效的一次性采样方法来同时并行采样多个标签的令牌,并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一个简单的策略,通过简单丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法在保持整体模型性能的同时具有显著的效率优势。
Dec, 2023