关键词multi-modal large language models
搜索结果 - 78
  • MLLM 作为视频叙述者:减轻视频片段检索中的模态不平衡
    PDF7 days ago
  • MG-LLaVA:面向多粒度视觉指导调整
    PDF7 days ago
  • EmoLLM:多模态情感理解与大型语言模型
    PDF8 days ago
  • 多模态大型语言模型 (LLM) 用于平面旋转文档中的结构化数据提取的鲁棒性
    PDF19 days ago
  • MMRel:MLLM 时代的关系理解数据集和基准
    PDF19 days ago
  • 让任何多模态大型语言模型都能高效地进行上下文学习
    PDF21 days ago
  • 自动驾驶中基于大型语言模型的超对齐框架
    PDF23 days ago
  • MLLM-SR:基于多模态大型语言模型的对话符号回归
    PDF24 days ago
  • 多模态大型语言模型中信息存储和传递的理解
    PDFa month ago
  • 多模态情感分析的数据不一致性评估
    PDFa month ago
  • Mobile-Agent-v2: 移动设备操作助手通过多智能体协作实现有效导航
    PDFa month ago
  • Video-MME: 多模式语言模型在视频分析中的首个综合评估基准
    PDFa month ago
  • MMCTAgent:复杂视觉推理的多模态批判性思维代理框架
    PDFa month ago
  • 分析多模态大型语言模型的视觉感知
    PDFa month ago
  • ICLR多模态大型语言模型的视觉定位对抗鲁棒性
    PDF2 months ago
  • Plot2Code:用于评估科学图形代码生成的多模态大型语言模型的综合基准
    PDF2 months ago
  • CVPR利用 MLLM 的能力进行可迁移的文本到图像人物再识别
    PDF2 months ago
  • 具备 3D 理解的语言 - 图像模型
    PDF2 months ago
  • TableVQA-Bench: 多表领域上的视觉问答基准
    PDF2 months ago
  • ACLSERPENT-VLM:利用视觉语言模型自我生成精化放射学报告
    PDF2 months ago
Prev