Nov, 2023

DocPedia: 在频域释放大型多模态模型的能力,实现多功能文档理解

TL;DRDocPedia 是一种新型的大型多模态模型,用于 OCR-free 文档理解,能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入,DocPedia 能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和丰富的训练任务指导 / 注释,我们不断增强模型的感知和理解能力,实验证实了联合学习感知和理解任务的互利益。结果进一步证明了我们的 DocPedia 相比其他方法的有效性和优越性能。