关键词multi-modal understanding
搜索结果 - 10
  • MMCTAgent:复杂视觉推理的多模态批判性思维代理框架
    PDFa month ago
  • TEAL: 多模态大型语言模型的令牌化和嵌入全部
    PDF8 months ago
  • 音像实例分割
    PDF8 months ago
  • 使用 Polite Flamingo 进行视觉指导调整
    PDFa year ago
  • EmbodiedGPT: 基于身体思维链的视觉 - 语言预训练
    PDFa year ago
  • 使用视语言预训练模型提高医学语音转文本的准确性
    PDFa year ago
  • OmniVL: 图像 - 语言和视频 - 语言任务的基础模型
    PDF2 years ago
  • CVPRSAMPLE-HD: 同时动作和运动规划学习环境
    PDF2 years ago
  • MM用正确的图像区域回答问题:一种视觉关注正则化方法
    PDF3 years ago
  • ACLUNIMO:通过跨模态对比学习实现统一模态理解和生成
    PDF4 years ago
Prev
Next