vision encoder | BriefGPT - AI 论文速递

关键词vision encoder

搜索结果 - 6

WIDIn：面向单源域泛化的领域不变表示的词语图像
通过使用自我监督框架 WIDIn 并结合细粒度对齐的语言嵌入方式，实现了去除视觉表示中的领域特定成分，从而提供了一种可以应用于预训练的视觉 - 语言模型以及单模态模型的方法。在三个领域通用数据集上进行的实验验证了我们方法的有效性。
PDFa month ago
GPT-4V 的进展：通过开源套件缩小与商业多模型的差距
InternVL 1.5 是一种开源的多模态大型语言模型，通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进，提升了多模态理解的能力，在 OCR 和中文相关任务中达到与传统型和专有模型相竞争的性能。
PDF2 months ago
火山：通过自反馈引导修订来减轻多模态幻觉
通过自我反馈引导修订模型，Volcano 可以有效降低多模态幻觉，并在多项基准测试中达到最新水平，通过定性分析，我们展示了 Volcano 反馈信息与初始响应相比，更好地与图像对应。
PDF8 months ago
分析仅基于 LLM 方法在基于图像的文件问答中的效果
近期文件问答模型包括两个关键组成部分：视觉编码器，用于捕捉图像中的布局和视觉元素，以及大型语言模型（LLM），有助于将问题与图像上下文化并通过补充外部世界知识来生成准确答案。然而，这些任务中视觉编码器和语言模型的相对贡献仍不清楚。本文探讨了
PDF9 months ago
Shikra: 发挥多模 LLM 的指代对话魔力
本文介绍一种名为 Shikra 的 MLLM 模型，具备自然语言处理输入输出并能处理视觉相关任务，包括定位相关的任务，如 REC 和 PointQA，以及常规的视觉语言任务，如图像字幕和 VQA，实验结果表明其性能良好，能够进行指定物体的坐
PDFa year ago
Re-ViLM: 检索增强的视觉语言模型，用于零和少量样本图像字幕生成
本研究提出了一种基于 Flamingo 模型的 Retrieval-augmented Visual Language Model（Re-ViLM）, 支持检索外部数据库的相关知识，减少模型参数数量，适应新数据评估。研究表明，Re-ViLM
PDFa year ago