关键词multimodal large language model
搜索结果 - 32
- CVPRCVPR2024 基础 Few-Shot 目标检测挑战的解决方案PDF14 days ago
- VIP: 基于多模态大型语言模型的多功能图像外描绘PDFa month ago
- 引入视觉模态的高效 LLM 越狱PDFa month ago
- WorldGPT: 以语言模型为基础的多模态世界模型PDF2 months ago
- Boter: 基于知识的 VQA 的知识选择和问答引导PDF2 months ago
- Groma:针对多模态大语言模型的本地化视觉标记PDF2 months ago
- 指南:执行的图形用户界面数据PDF3 months ago
- MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力:交错的视觉 - 文本标记PDF3 months ago
- LITE:多模态大型语言模型建模环境生态系统PDF3 months ago
- 漫画文本补全的多模态 TransformerPDF4 months ago
- CVPRSNIFFER: 可解释的跨语境误信息识别的多模态大型语言模型PDF4 months ago
- 多模态指导的细粒度视觉感知语言模型优化PDF4 months ago
- MMMModal -- 多图像 多音频 多轮 多模态PDF4 months ago
- Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体PDF5 months ago
- KDDLumos:赋予多模式 LLMs 场景文本识别能力PDF5 months ago
- GeReA: 针对基于知识的视觉问答的问题感知提示标题PDF5 months ago
- LLaVA-MoLE:稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突PDF5 months ago
- TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型PDF6 months ago
- 音视频 LLM 用于视频理解PDF7 months ago
- CoDi-2: 上下文、交错和交互的任意生成PDF7 months ago
Prev