关键词multimodal transformer
搜索结果 - 21
  • 关于利用三维手势姿势进行动作识别的实用性研究
    PDF4 months ago
  • 高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类
    PDF6 months ago
  • 文本到图像生成的丰富人类反馈
    PDF7 months ago
  • UniAR:统一人类视觉内容中的注意力与反应预测
    PDF7 months ago
  • 遥感图像目标检测的跨通道注意力多模态变换器
    PDF8 months ago
  • EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练
    PDF10 months ago
  • 音频感知的查询增强变换器用于音频 - 视觉分割
    PDFa year ago
  • 基于帧间交互和跨模态相关性的视频目标分割
    PDFa year ago
  • 使用多模态 Transformer 进行基于帧的直播流点击率预测
    PDFa year ago
  • 学习鲁棒的视觉语义嵌入,实现通用的人员再识别
    PDFa year ago
  • 时间丰富的多模态转换器检测抑郁症
    PDFa year ago
  • 并联连接变分自编码器的多模态变换器
    PDF2 years ago
  • 多模态转换器:将临床记录与结构化电子病历数据融合,可解释的住院死亡率预测
    PDF2 years ago
  • DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见
    PDF2 years ago
  • ECCV多模态变长记忆转换器用于视觉语言导航
    PDF3 years ago
  • EMNLP视频和文章的联合多媒体事件抽取
    PDF3 years ago
  • CLIP-It!基于语言指导的视频摘要
    PDF3 years ago
  • ICCV视觉语言导航的史诗变压器
    PDF3 years ago
  • AAAI文本和视频的桥梁:用于视频音频场景感知对话的通用多模态 Transformer
    PDF4 years ago
  • CVPR使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA
    PDF5 years ago
Prev