visual encoder | BriefGPT - AI 论文速递

关键词visual encoder

搜索结果 - 13

MLLMs 的密集连接器
我们引入了密集连接器 —— 一个简单、有效且即插即用的视觉语言连接器，通过利用多层视觉特征显著增强现有的多模态大型语言模型 (MLLMs)，并且在仅依靠图像训练的情况下，展示了在视频理解方面的显著零样本能力。
PDFa month ago
MoVA: 将多模态背景下的视觉专家混合进行调整
通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。
PDF2 months ago
链式侦测：交互推理提升大型视觉语言模型
介绍了一种名为 Chain-of-Spot（CoS）的交互推理方法，通过关注图像中与问题或指令相对应的关键区域（ROI），增强特征提取，提供了多粒度图像特征，从而显著提高了大型视觉 - 语言模型（LVLMs）在理解和推理视觉内容方面的能力。
PDF3 months ago
漫画文本补全的多模态 Transformer
这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模
PDF4 months ago
协同双重注意力的音视频语音增强与面部线索
通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。
PDF7 months ago
高性能表格结构识别所需的早期卷积
在表结构识别中，我们设计了一个轻量级的视觉编码器，通过使用卷积网络作为起始模块以达到高性能的目的，并提供了可重现性的剔除研究和开源代码以促进在我们的领域中的透明度、激发创新和促进公平比较。
PDF8 months ago
揭示隐藏的关联：针对与视频相关的对话进行迭代跟踪和推理
对比传统的视觉问答，基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战，我们提出了一种迭代的跟踪与推理策略，将文本编码器、视觉编码器和生成器相结合。在核心部
PDF9 months ago
使用 CLIP 的半监督图像字幕生成
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，
PDFa year ago
MetaVL：从语言模型向视觉语言模型转移上下文学习能力
本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得
PDFa year ago
CLIP 也可以理解文本：通过提示进行短语理解
本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和
PDF2 years ago
ICLR自监督视觉预训练的损坏图像建模
本篇论文介绍了 Corrupted Image Modeling (CIM) 用于图像自监督预训练，通过使用额外的生成器和小型可训练 BEiT 对输入图像进行损坏来实现，而不是使用人工 MASK 令牌，并在训练后可以将增强器用作下游任务的高
PDF2 years ago
一种简单且高效的端到端图像描述方法
通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了
PDF2 years ago
另一侧的发现：一种适应视角的匹配编码器用于变化字幕
本文提出一种新颖的视觉编码器，以在 Change Captioning 任务中明确区分视点变化和语义变化，并进一步模拟人类的注意力偏好，通过一种新的强化学习过程直接微调注意力。实验结果表明，该方法在 Spot-the-Diff 和 CLEV
PDF4 years ago