TextSquare：文本为中心的视觉指令调优的扩展

Apr, 2024

TextSquare：文本为中心的视觉指令调优的扩展

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu...

TL;DRTextSquare 通过使用 Square-10M 数据集，远远超过开源模型，提出了对文本中心的 MLLMs 进行调参的新方法，并在 OCR 评估中达到了新的标准 (62.2%)，同时在 6 个文本中心基准测试中胜过 GPT4V 和 Gemini 模型。此外，研究还展示了 VQA 推理数据在提供全面上下文洞察力方面的关键作用，并提高了准确性，显著减轻了幻觉。最后，研究揭示了文本中心 VQA 数据集规模的指数级增长与模型性能改善之间的关系，验证了数据集规模和 Square-10M 的高质量的必要性。

Abstract

text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality →

text-centric visual question answering multimodal large language models (mllms)instruction tuning data square-10m vqa reasoning data

发现论文，激发创造

SVIT：扩展视觉指导调整

通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集，对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。

Jul, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

探索大型多模型模型对于密集文本的能力

本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

May, 2024

MTVQA：多语言基于文本为中心的视觉问答基准测试

本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA，并通过评估多种先进的多模态大型语言模型在该数据集上的表现，发现仍有提高性能的空间，凸显了该数据集的价值。

May, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

基于质量驱动数据选择的课程学习

通过利用图像文字相互关系和模型困惑度评估选择数据的品质，本研究提出了一种利用两个属性在二维空间选择数据的数据选择方法。研究结果表明，相比于使用完整数据集，在五种常见能力上得到了显著提升，可以构建不同品质的多阶段子集以促进课程学习。

Jun, 2024

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

通过视觉问答对将探测信号融入多模态机器翻译

本研究论文通过深入研究多模式机器翻译（MMT），探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象，并提出了一种新的方法来生成并行的视觉问答（VQA）风格对，以促进更强大的跨模态交互。使用大型语言模型（LLMs），将 MMT 中的探测信号显式建模为 VQA 风格数据，创建了 Multi30K-VQA 数据集，并引入了 MMT-VQA 多任务学习框架，将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。

Oct, 2023