BriefGPT.xyz
Ask
alpha
关键词
text-centric visual question answering
搜索结果 - 2
MTVQA:多语言基于文本为中心的视觉问答基准测试
本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA,并通过评估多种先进的多模态大型语言模型在该数据集上的表现,发现仍有提高性能的空间,凸显了该数据集的价值。
PDF
2 months ago
TextSquare:文本为中心的视觉指令调优的扩展
TextSquare 通过使用 Square-10M 数据集,远远超过开源模型,提出了对文本中心的 MLLMs 进行调参的新方法,并在 OCR 评估中达到了新的标准 (62.2%),同时在 6 个文本中心基准测试中胜过 GPT4V 和 Ge
→
PDF
3 months ago
Prev
Next