关键词multimodal large language model
搜索结果 - 32
  • CVPRCVPR2024 基础 Few-Shot 目标检测挑战的解决方案
    PDF14 days ago
  • VIP: 基于多模态大型语言模型的多功能图像外描绘
    PDFa month ago
  • 引入视觉模态的高效 LLM 越狱
    PDFa month ago
  • WorldGPT: 以语言模型为基础的多模态世界模型
    PDF2 months ago
  • Boter: 基于知识的 VQA 的知识选择和问答引导
    PDF2 months ago
  • Groma:针对多模态大语言模型的本地化视觉标记
    PDF2 months ago
  • 指南:执行的图形用户界面数据
    PDF3 months ago
  • MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力:交错的视觉 - 文本标记
    PDF3 months ago
  • LITE:多模态大型语言模型建模环境生态系统
    PDF3 months ago
  • 漫画文本补全的多模态 Transformer
    PDF4 months ago
  • CVPRSNIFFER: 可解释的跨语境误信息识别的多模态大型语言模型
    PDF4 months ago
  • 多模态指导的细粒度视觉感知语言模型优化
    PDF4 months ago
  • MMMModal -- 多图像 多音频 多轮 多模态
    PDF4 months ago
  • Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体
    PDF5 months ago
  • KDDLumos:赋予多模式 LLMs 场景文本识别能力
    PDF5 months ago
  • GeReA: 针对基于知识的视觉问答的问题感知提示标题
    PDF5 months ago
  • LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突
    PDF5 months ago
  • TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型
    PDF6 months ago
  • 音视频 LLM 用于视频理解
    PDF7 months ago
  • CoDi-2: 上下文、交错和交互的任意生成
    PDF7 months ago
Prev