文本字符串中的视觉感知
该论文提出了一种基于大型视觉语言模型CLIP的fine-tuning策略,用于从文本中评分文本的视觉性,并对其进行分类,得到了比其他方法更好的结果,并展示了文本视觉性对于文本生成任务的重要性。
May, 2023
对ChatGPT及其基础模型GPT3.5的可视任务进行分析,包括图像识别和图像生成等方面。
Jul, 2023
通过一项挑战-回应研究,我们对Google Bard进行了64个视觉挑战,旨在探查多模式大型语言模型(LLMs)的能力。我们的发现表明,Bard在确定图像中的线索时更倾向于根据直觉做出猜测,并且不依赖于OCR库而使用类似Google Lens和Visual API的深度学习模型来识别复杂图像中的文本。然而,Bard无法重新绘制ASCII艺术或解析简单的井字棋网格,这项研究为多模式LLMs的当前能力和改进方向提供了实验性见解。
Aug, 2023
最新的视觉语言模型(VLM)在识别视觉语义内容方面取得了显著的成功,但在识别视觉数据类型方面存在盲区。本文通过引入“视觉数据类型识别”这一新任务,探索并提升VLM在识别视觉数据类型方面的能力,通过分析模型的预训练分布,并在微调过程中引入数据类型信息,实现了显著的性能提升。
Oct, 2023
文中系统评估了大型语言模型(LLMs)生成和识别各种复杂视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明,通过精确地建模字符串,语言模型可以在视觉世界的多个方面展现出作用,同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助LLMs能够训练具备语义评估能力的视觉模型的潜力。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
对于像素级语言模型,本论文介绍了一种新颖的预训练框架,通过在超过4亿个文档渲染的RGB图像上预训练,采用双模态训练方案,结合视觉数据和文本数据,通过下一个块预测和分类头预测进行训练,并展示了将视觉和文本数据结合的潜力及有效性。
Apr, 2024
StrucTexTv3是一种高效的视觉语言模型,通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器,结合指令学习提高感知与理解能力,并使用TIM-30M来提升模型的鲁棒性,实现了领先的文本丰富图像感知任务和理解任务的结果,展现了广泛应用的巨大潜力。
May, 2024
本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难,提出了一种新型图像标记器,利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现,并展示了在有限训练数据下的良好扩展性,可能为更高效的多模态基础模型开辟新的方向。
Oct, 2024