文本字符串中的视觉感知

Oct, 2024

Visual Perception in Text Strings

Qi Jia, Xiang Yue, Shanshan Huang, Ziheng Qin, Yizhu Liu...

TL;DR本研究解决了大型语言模型和多模态大型语言模型在视觉理解中的能力差距，特别是在ASCII艺术的识别任务上。通过构建评价数据集并进行模型性能基准测试，发现虽然人类准确率接近100%，但当前最先进的模型平均准确率仅约为30%。研究强调了改进多模态信息融合训练技术的必要性，以提高模型的整体表现。

Abstract

Understanding visual semantics embedded in consecutive characters is a crucial capability for both Large Language Models (LLMs) and multi-modal Large Language Models (MLLMs). This type of artifact possesses the u

发现论文，激发创造

使用大型视觉-语言模型学习文本的视觉特征

该论文提出了一种基于大型视觉语言模型CLIP的fine-tuning策略，用于从文本中评分文本的视觉性，并对其进行分类，得到了比其他方法更好的结果，并展示了文本视觉性对于文本生成任务的重要性。

May, 2023

通过基于ASCII-Art的跨模态任务，测试ChatGPT的理解深度：GPT3.5在识别和生成ASCII-Art方面的能力并非完全缺乏

对ChatGPT及其基础模型GPT3.5的可视任务进行分析，包括图像识别和图像生成等方面。

Jul, 2023

解码图像：释放大型语言模型

通过一项挑战-回应研究，我们对Google Bard进行了64个视觉挑战，旨在探查多模式大型语言模型（LLMs）的能力。我们的发现表明，Bard在确定图像中的线索时更倾向于根据直觉做出猜测，并且不依赖于OCR库而使用类似Google Lens和Visual API的深度学习模型来识别复杂图像中的文本。然而，Bard无法重新绘制ASCII艺术或解析简单的井字棋网格，这项研究为多模式LLMs的当前能力和改进方向提供了实验性见解。

Aug, 2023

视觉数据类型理解不会由于扩展视觉-语言模型而出现

最新的视觉语言模型（VLM）在识别视觉语义内容方面取得了显著的成功，但在识别视觉数据类型方面存在盲区。本文通过引入“视觉数据类型识别”这一新任务，探索并提升VLM在识别视觉数据类型方面的能力，通过分析模型的预训练分布，并在微调过程中引入数据类型信息，实现了显著的性能提升。

Oct, 2023

语言模型的视觉检查

文中系统评估了大型语言模型（LLMs）生成和识别各种复杂视觉概念的能力，并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明，通过精确地建模字符串，语言模型可以在视觉世界的多个方面展现出作用，同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助LLMs能够训练具备语义评估能力的视觉模型的潜力。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过4亿个文档渲染的RGB图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

StrucTexTv3：一个高效的视觉语言模型，适用于文本丰富的图像感知、理解和更多

StrucTexTv3是一种高效的视觉语言模型，通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器，结合指令学习提高感知与理解能力，并使用TIM-30M来提升模型的鲁棒性，实现了领先的文本丰富图像感知任务和理解任务的结果，展现了广泛应用的巨大潜力。

May, 2024

从像素到标记：量化视觉模态中的字节对编码

本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难，提出了一种新型图像标记器，利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现，并展示了在有限训练数据下的良好扩展性，可能为更高效的多模态基础模型开辟新的方向。

Oct, 2024