large vision-language models | BriefGPT

关键词large vision-language models

搜索结果 - 114

基于概念技能可转移性的数据选择方法用于大规模视觉语言模型
通过使用小模型作为参考模型，COINCIDE 是一种有效且可伸缩的数据选择技术，可用于选择用于目标 LVLM 的高效微调的视觉指令数据，重点关注多样性和可转移性。
PDF18 days ago
构建中国文化的镜头：用于理解中国谐音绘画艺术的多模态数据集
通过发布《谜语艺术数据集》，本文旨在促进大型视觉 - 语言模型（VLM）的发展，以更好地理解和解释具有文化特定内容的艺术，特别是扎根于中国传统文化的艺术。
PDF20 days ago
从像素到散文：一个大规模的密集图像字幕数据集
使用 PixelProse，通过 16M 个合成生成的标题，我们构建了一个详细而准确的图像描述的综合数据集，同时还提供了有价值的元数据，如水印存在和美学评分，以帮助进一步的数据集过滤。
PDF20 days ago
VLind-Bench：大型视觉 - 语言模型中的语言先验测量
通过新的基准测试 VLind-Bench，本研究评估和分析了近期的大型视觉语言模型 (LVLMs)，发现几乎所有模型都过度依赖于语言先验，这对该领域构成了巨大挑战。
PDF21 days ago
INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准
本研究系统评估和总结了 LVLMs 在保险领域中的多模态任务，并提出了 INS-MMBench 作为第一个专门为保险领域量身定制的全面 benchmark，该评估不仅验证了我们的 benchmark 的有效性，还对当前 LVLMs 在保险领
PDF21 days ago
ACLEmbSpatial-Bench：基于大型视觉 - 语言模型的空间理解能力基准评估
近期大型视觉 - 语言模型（LVLMs）的快速发展表明它们在具体任务中的潜力，然而，目前的 LVLMs 在具体环境中的空间理解能力尚未得到充分评估，这使得当前 LVLMs 与合格的具体智能之间存在未知差距。为此，我们构建了 EmbSpati
PDF25 days ago
文本引导的图像聚类
利用大规模视觉语言模型，该研究探索了可用于辅助多样化图像聚类的潜力，并提出一种名为 TGAICC 的新方法，通过使用提示来引导不同聚类的发现，并通过一致性聚类的方式将它们聚合在一起。该方法在四个多样化图像聚类基准数据集上表现出优于基于图像和
PDFa month ago
通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解
该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这
PDFa month ago
用反事实推理发现大规模视觉 - 语言模型中的偏见
通过对现有的大规模视觉 - 语言模型进行大规模研究，我们发现社会属性，如种族、性别和形象特征，可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分，同时也探讨了大规模视觉 - 语言模型和对应的语言模型之间的社会偏见关系和
PDFa month ago
大规模视觉语言模型的 Matryoshka 查询转换器
运用 Matryoshka Query Transformer (MQT) 模型及变长的嵌入方式，实现图像编码成可调根数的视觉令牌，并通过组合 MQT 与 LLaVA 模型，在保持类似性能的同时，大幅减少了推理时所需的视觉令牌数量。
PDFa month ago
大型视觉语言模型的白盒多模态越狱
通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型
PDFa month ago
通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐
通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。
PDFa month ago
VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉
对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。
PDFa month ago
校准的自我奖励视觉语言模型
大规模视觉 - 语言模型通过整合预先训练好的大型语言模型和视觉模型，通过自我奖励方法中引入视觉约束以减少幻觉，提高性能，在十个基准测试和任务中取得了 7.62% 的显著改进。
PDFa month ago
揭开大型视觉语言模型的一致性之纱
通过多模态基准测试工具 ConBench，本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题，并通过基于触发器的诊断优化方法，间接提高了模型的性能，以增强其描述能力。
PDFa month ago
UDKAG: 增强大型视觉语言模型的最新知识
提出了一种名为 UDKAG 的框架，通过互联网搜索来为 Large vision-language models 提供最新的知识，以应对视觉问答。使用层级过滤模型从搜索引擎返回的网站中有效地找到最有帮助的内容。实验结果表明，该框架的效果比
PDFa month ago
IJCAIC3L: 通过对比学习生成与内容相关的视觉语言指导调参数据
通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性，并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。
PDFa month ago
重新思考视觉语言模型中被忽视的方面
该论文研究了大型视觉语言模型（LVLMs）中数据效率的常常被忽视的方面，以及预训练和微调数据的选择过程，旨在优化数据使用来增强视觉语言模型的性能。
PDFa month ago
通过级联视觉语言模型提升细粒度图像分类
本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford
PDF2 months ago
PEVA-Net: 针对零 / 少样本多视角三维形状识别的提示增强的视图聚合网络
基于多视图表征，利用大型视觉语言模型 CLIP，探索零 / 少样本三维形状识别任务，并提出 Prompt-Enhanced View Aggregation Network (PEVA-Net) 以同时解决零 / 少样本场景下的三维形状识别
PDF2 months ago