BriefGPT.xyz
大模型
Ask
alpha
关键词
visually-situated language understanding
搜索结果 - 1
UReader:基于多模态大型语言模型的通用无 OCR 视觉智能语言理解
通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力,我们在较低的训练成本下,通过在广泛的视觉语境理解任务上联合微调,设计了 UReader 模型,实现了 OCR-free 模式下在 8
→
PDF
9 months ago
Prev
Next