关键词multi-modal understanding
搜索结果 - 10
- MMCTAgent:复杂视觉推理的多模态批判性思维代理框架PDFa month ago
- TEAL: 多模态大型语言模型的令牌化和嵌入全部PDF8 months ago
- 音像实例分割PDF8 months ago
- 使用 Polite Flamingo 进行视觉指导调整PDFa year ago
- EmbodiedGPT: 基于身体思维链的视觉 - 语言预训练PDFa year ago
- 使用视语言预训练模型提高医学语音转文本的准确性PDFa year ago
- OmniVL: 图像 - 语言和视频 - 语言任务的基础模型PDF2 years ago
- CVPRSAMPLE-HD: 同时动作和运动规划学习环境PDF2 years ago
- MM用正确的图像区域回答问题:一种视觉关注正则化方法PDF3 years ago
- ACLUNIMO:通过跨模态对比学习实现统一模态理解和生成PDF4 years ago
Prev
Next