May, 2025
MathCoder-VL:连接视觉与代码以增强多模态数学推理
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal
Mathematical Reasoning
TL;DR本研究解决了现有多模态模型在数学推理中忽视数学图形细节的问题。通过利用代码作为跨模态对齐的监督,提出了图像到代码模型FigCodifier及其配套数据集ImgCode-8.6M,开创性地合成数学图形并构建高质量的MM-MathInstruct-3M数据集。最终,训练后的MathCoder-VL在多模态数学问题求解中取得了新的开源最佳成绩,超越了现有多个模型。