基于模型和数据的视觉定位学习
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018
通过引入结构对齐和语义感知的方法,本文提出了一种新的框架来解决航空图像到地面图像合成的挑战,通过将航空图像的特征与地面布局对齐,实现了复杂地理结构的重建,同时通过引入预训练分割网络,通过计算不同类别的损失并平衡它们,实现了跨类别综合样式的生成。通过与现有方法的比较和削减研究,本方法在质量和数量上显示出了有效性。
Aug, 2023
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28%,并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。
Dec, 2023
本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架,该方法通过训练每个模块来独立解析实体、属性和空间关系,并结合领域自适应技术解决常见问题。实验表明,该框架与 Sim-To-Real 实现的视觉识别方法相结合,能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。
May, 2022
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
Apr, 2017
本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码,以及细调模型的策略,探讨如何提高视觉语言模型对非物体类词汇等方面(即超越名词的视觉语言概念)的理解和组合推理能力,从而在保持零样本准确度的前提下,极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减,我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力(如在 ARO 上提高 9.9%,VL-Checklist 上提高 4.3%)。
Mar, 2023
我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。
Jul, 2017