visual tokens | BriefGPT - AI 论文速递

关键词visual tokens

搜索结果 - 12

用于长视频问答的分层记忆
本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案，利用 STAR Memory 这个层次性内存机制处理长视频，并使用 MovieChat-1K 训练集优化了预训练权重，在该挑战中取得了第一名。
PDF4 days ago
LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型
通过对视觉标记和训练效率的分析研究，提出了一种名为 Visual Context Compressor 的方法，通过压缩视觉标记来提高多模式模型的训练效率，最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。
PDF6 days ago
语境长距离从语言到视觉的转换
通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能
PDF10 days ago
大规模视觉语言模型的 Matryoshka 查询转换器
运用 Matryoshka Query Transformer (MQT) 模型及变长的嵌入方式，实现图像编码成可调根数的视觉令牌，并通过组合 MQT 与 LLaVA 模型，在保持类似性能的同时，大幅减少了推理时所需的视觉令牌数量。
PDFa month ago
ConvLLaVA：大型多模型视觉编码器的分层主干
通过使用 ConvNeXt 作为 LMM 的视觉编码器，ConvLLaVA 将高分辨率图像压缩为信息丰富的视觉特征，以避免生成过多的视觉令牌，并通过两个关键的优化进一步增强了 ConvLLaVA 的能力。
PDFa month ago
语言模型对生物医学成像任务的免费助推器
该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性，这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层，该方法与现有方法学不同，可以直接处理视觉标记。该研究发现，这些大型语言模
PDF3 months ago
LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少
通过减少视觉标记并合并相关标记，我们提出了一种自适应的视觉标记压缩方法 PruMerge，可以显著减少可视标记的数量并保持相似的模型性能。
PDF3 months ago
Chat-UniVi：统一视觉表示赋予大型语言模型图像和视频理解能力
Chat-UniVi 是一个统一的视觉 - 语言模型，能够理解和参与涉及图像和视频的对话，并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频，同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-U
PDF8 months ago
在大型语言模型中种下一个愿景的种子
本文介绍了 SEED，一种复杂的图像分词器，可使大型语言模型同时有看和画的能力，并提出了两个重要的原则，以有效地便于将 SEED 与 LLMs 对齐。
PDFa year ago
使用视觉 Transformer 进行细粒度的图片风格转换
本文提出了一种新颖的 STTR 网络，采用视觉令牌将内容和样式映射到细粒度的特征空间，采用自注意力机制和交叉注意力机制实现微观的样式转换，在人造数据集的评估中取得了较高的效果。
PDF2 years ago
ECCV使用 Token-Critic 改进的遮蔽图像生成
该论文介绍了 Token-Critic，一个辅助模型，用于指导非自回归生成变压器的采样，该模型可选择要接受和要拒绝和重新采样的 token，结合 Token-Critic，生成变压器在 ImageNet 生成方面优于最近的扩散模型和 GAN
PDF2 years ago
AAAIPeCo: 基于感知编码本的视觉 Transformer BERT 预训练
本文探讨了 BERT 预训练视觉变换器的更好预测目标，提出了学习感知预测目标的想法，并在 dVAE 训练过程中实现感知相似性的强制，使用自监督变换模型进行深度特征提取，最终得到学习到更好的视觉 token，取得了在多个任务上优于 BEiT
PDF3 years ago