BriefGPT.xyz
大模型
Ask
alpha
关键词
unified paradigm
搜索结果 - 2
图数据与多模态相遇:图理解与推理的新范式
通过整合图像编码和多模态技术,将图数据理解和推理的范式与 GPT-4V 的先进能力相结合,以指令 - 响应格式实现对图数据的理解,评估该范式在不同图类型上的性能并强调模型的优势和劣势,特别是中文 OCR 性能和复杂推理任务,为增强图数据处理
→
PDF
7 months ago
联合注视位置与注视物体检测
该论文提出了一种高效有效的联合注视位置检测(GL-D)和注视对象检测(GO-D)方法,通过统一的单阶段流水线同时检测人类注视位置和注视对象,实现了全面端到端的联合,进一步提高准确率。
PDF
10 months ago
Prev
Next