Feb, 2025

利用PDF数据提升日本大型多模态模型的性能

TL;DR本研究针对当前日本大型多模态模型(LMMs)在高质量训练数据不足导致的有效性受限问题,探索将日本PDF数据作为训练资源的新思路。通过引入自动化流水线提取PDF中的图文对,构建指令数据丰富训练集,实验证明在日本LMM基准测试上性能显著提高,展示了PDF数据作为多模态资源的价值。