关键词vision and language
搜索结果 - 14
- 跨模态协调:在多元输入模态中的协同PDF5 months ago
- 动态离散视觉标记的统一语言 - 视觉预训练PDF10 months ago
- 通过文本理解视频场景:来自基于文本的视频问答的洞察PDF10 months ago
- ICCV通过时空事件图解释视觉与语言PDF10 months ago
- 密集对齐字幕(DAC)促进视觉语言模型中的组合推理PDFa year ago
- LaFTer:使用语言和未标记图像集合进行零样本分类器的无标签调整PDFa year ago
- 从非对称角度用混合多模态方法重新思考多模态内容审核PDFa year ago
- 使用场景图将结构化表示法加入预训练视觉与语言模型PDFa year ago
- MultiModal-GPT: 一个视觉语言模型,用于人类对话PDFa year ago
- IPA-CLIP: 将音位预先设定集成到视觉和语言预先训练中PDFa year ago
- REST:生成式动作识别的检索与自训练PDF2 years ago
- 通过输入空间转换利用 BERT 进行多模态目标情感分类PDF3 years ago
- AAAIUnicoder-VL: 一个视觉语言通用编码器,通过交叉模态预训练实现PDF5 years ago
- 基于自然语言的目标描述和检索PDF6 years ago
Prev
Next