关键词vision and language
搜索结果 - 14
  • 跨模态协调:在多元输入模态中的协同
    PDF5 months ago
  • 动态离散视觉标记的统一语言 - 视觉预训练
    PDF10 months ago
  • 通过文本理解视频场景:来自基于文本的视频问答的洞察
    PDF10 months ago
  • ICCV通过时空事件图解释视觉与语言
    PDF10 months ago
  • 密集对齐字幕(DAC)促进视觉语言模型中的组合推理
    PDFa year ago
  • LaFTer:使用语言和未标记图像集合进行零样本分类器的无标签调整
    PDFa year ago
  • 从非对称角度用混合多模态方法重新思考多模态内容审核
    PDFa year ago
  • 使用场景图将结构化表示法加入预训练视觉与语言模型
    PDFa year ago
  • MultiModal-GPT: 一个视觉语言模型,用于人类对话
    PDFa year ago
  • IPA-CLIP: 将音位预先设定集成到视觉和语言预先训练中
    PDFa year ago
  • REST:生成式动作识别的检索与自训练
    PDF2 years ago
  • 通过输入空间转换利用 BERT 进行多模态目标情感分类
    PDF3 years ago
  • AAAIUnicoder-VL: 一个视觉语言通用编码器,通过交叉模态预训练实现
    PDF5 years ago
  • 基于自然语言的目标描述和检索
    PDF6 years ago
Prev
Next