均质分词器重要性:远程感知图像理解的均质视觉分词器
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024
通过大规模视觉 - 语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play 开放词汇语义分割(PnP-OVSS),并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。
Nov, 2023
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
基于 Transformer 的视觉模型通常将图像以固定大小的方形分块作为输入单元,缺乏对图像内容的适应性,忽视了固有的像素分组结构。受语言模型中广泛采用的子词分词启发,我们提出了一种在子对象级别进行图像分词的方法,其中子对象通过分割模型(例如,分割任意模型)获得的具有语义含义的图像段表示。为了基于子对象分词实现学习系统,我们首先引入了一个序列到序列自编码器(SeqAE),将具有不同尺寸和形状的子对象段压缩为紧凑的嵌入向量,然后将子对象嵌入输入到大型语言模型中进行视觉语言学习。实证结果表明,与传统的分块级别分词相比,我们的子对象级别分词显著促进了将图像翻译为对象和属性描述的高效学习。代码和模型将在此 https URL 开源。
Feb, 2024
在视觉 - 语言预训练框架中,通过提供语义上有意义的视觉标记给 transformer 编码器,本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制,并通过使用现成的分割和场景图模型,提取了实例分割掩码(称为有形标记)和关系动作(称为无形标记)的表示,从而在视觉 side 的 transformer 预训练中引入了这些新增的标记,并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明,在 COCO 数据集上,相比 ViTs,在文本到图像(+47%)和图像到文本(+44%)检索任务中学到了更好的表示质量,并且在组合性评估基准(如 ARO(+18%)和 Winoground(+10%))上展示了优势。
May, 2024
本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。
Jun, 2020
提出了一种新颖的动态语义等价视觉标记器(SeTok)来解决现有视觉标记器的问题,该标记器通过动态聚类算法将视觉特征分组为语义单元,灵活确定标记数目。由此产生的视觉标记能够有效地保持语义完整性,并捕捉低频和高频视觉特征。所提出的具备 SeTok 的多模态大型语言模型(Setokim)在各种任务中显着展现了卓越的性能,如我们的实验结果所证明。
Jun, 2024
通过 Open-Vocabulary Attention Maps (OVAM) 方法,我们提出了一种基于迁移学习的模块 (Nucleus) 来训练大规模的中文文本生成系统 TextGPT,该模型利用 Transformer 将初始输入句子转换成生成句子所需的上下文嵌入向量,然后基于这些上下文嵌入生成生成句子。
Mar, 2024
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT 在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。
May, 2023