- We-Math: 您的大型多模型是否实现了类人数学推理?
WE-MATH 是第一个旨在探索问题解决原则的基准测试,通过分解复合问题,并引入新的四维度评估指标,评估了 LMMs 在视觉数学推理中的固有问题,为知识获取与泛化提供支持,评估现有 LMMs 在视觉数学推理中的表现,揭示了求解步骤与问题特定 - MINT-1T:将开源多模态数据放大 10 倍:一万亿令牌的多模态数据集
介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T,其中包括十亿个文本标记和三十亿个图像,并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。
- 超高像素大型多模态模型
高分辨率是大型多模式模型(LMMs)的基础,本论文提出了一种新的框架和优化策略,通过混合适配器从全局视图中提取上下文信息,并引入可学习的查询嵌入来减少图像标记,同时通过相似性选择器选择用户问题的关键标记,实现更好的性能表现。此外,通过交替训 - DeepStack: 深度堆叠视觉令牌在 LMMs 中的惊人简洁和高效
该研究提出一种新的架构 DeepStack 用于大型多模态模型(LMMs),通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力,并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。
- A-Bench: LMM 在评估 AI 生成图像方面的能力
如何准确高效地评估人工智能生成的图像(AIGIs)仍然是生成模型面临的重大挑战。为了避免用户研究时高昂的成本和广泛的时间投入,许多研究人员已转向大型多模型模型(LMMs)作为 AIGI 评估器,其精确性和有效性仍然存疑。此外,传统的基准测试 - VoCoT: 大型多模态模型中释放基于视觉基础的多步推理
该研究论文提出了 VoCoT,一种适合于大型多模态模型推理的多步骤可视化物体为中心的连贯思维推理框架,通过在 LMMs 中引入 VoCoT,实现了在长期生成过程中跨模态信息的有效连接,并在各种场景中表现出优秀的性能,超过了需要复杂推理的 S - M4U:评估大型多模态模型的多语言理解与推理能力
M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large - TinyLLaVA Factory:小规模大型多模态模型的模块化代码库
TinyLLaVA Factory 是一个开源的模块化代码库,专注于简洁易用的实现、可扩展性和训练结果的可重现性,旨在帮助研究人员和实践者在小规模大型多模元模型(LMMs)的设计和训练方面探索广阔领域并利用有限的计算资源。
- TextCoT: 提升多模态文本丰富图像理解的局部放大
提出了一种名为 TextCoT 的 Chain-of-Thought 框架,用于理解富文本图像,利用 LMMs 的字幕能力来把握图像的全局背景和细节地区,从而提供准确的问题回答,方法经过了广泛实验验证了其有效性和强大的普适能力。
- VisualCritic:使线性混合模型像人类一样感知视觉质量
探索大型多模态模型在视觉质量评估方面的能力并提出了第一个用于广谱图像主观质量评估的 LMM,VisualCritic。
- 走向开放式的视觉质量比较
本研究提出了 Co-Instruct 方法来在开放式比较设置中进一步提升视觉质量比较,通过收集数据集和建立多图像比较的基准,证明了 Co-Instruct 在图像质量评估方面的优越性。
- 2AFC 大型多模态模型的图像质量评估
通过使用 2AFC 提示,评估了大型多模态模型(LMMs)的图像质量评估(IQA)能力,并引入了三个评估标准,结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力,但在细粒度的质量判别方面仍有提升空间。
- PathMMU: 一个用于理解和推理病理学的大规模多模态专业水平基准
通过构建专业水准的最大、最高质量的病理学基准测试 PathMMU,我们对大型多模态模型的发展和精确评估进行了研究,发现高级多模态模型在面临挑战性的 PathMMU 基准测试中表现不佳,而且即使进行优化,也无法达到病理学家的专业水准。
- GOAT-Bench: 多模态大型模型的安全洞察力通过基于模因的社交滥用
社交媒体的指数增长深刻改变了信息的创造、传播和吸收方式,在数字时代超过以往任何时候。遗憾的是,这种爆炸也引发了网络违规使用表情包的显著增加。针对包括隐性仇恨言论、性别歧视和网络欺凌等主题的超过 6k 个多样表情包,本文全面研究了各种大型多模 - ShareGPT4V:改进大型多模态模型的更好标题
在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上 - 多模态问题回答的统一信息提取
利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与