BriefGPT.xyz
Ask
alpha
关键词
multimodal question-answering system
搜索结果 - 1
KDD
Lumos:赋予多模式 LLMs 场景文本识别能力
我们介绍了 Lumos,这是第一个具备文本理解能力的端到端多模态问答系统。Lumos 的核心是一个场景文本识别(STR)组件,用于从第一人称视角图像中提取文本,输出结果被用来增强多模态大型语言模型(MM-LLM)的输入。本文探讨了在构建 L
→
PDF
5 months ago
Prev
Next