关键词multi-modal reasoning
搜索结果 - 19
- FSMR:一种基于特征交换的多模态推理方法,结合文本和视觉线索PDF3 months ago
- 通过有效的跨模态蒸馏弥合视觉定位的模态差距PDF6 months ago
- 大型语言模型的检索增强多模态思维链推理PDF7 months ago
- MM一种解决几何问题的符号字符感知模型PDFa year ago
- ACL文本、表格和图像问答的统一语言表示PDFa year ago
- 通过合成任务数据评估多模态推理模型的能力PDFa year ago
- ACL一种基于多模态上下文推理的条件推断方法,适用于联合文本和视觉线索PDFa year ago
- LLaMA-Adapter V2: 参数高效的视觉指令模型PDFa year ago
- EMNLP基于信息论的视频对话文本幻觉减少PDF2 years ago
- EMNLP视频对话生成中的多模态语义图协同推理PDF2 years ago
- 分层本地 - 全局变压器用于时间句子定位PDF2 years ago
- 富有表现力多模式查询支持下的食谱内容和制备过程的计划式丰富食谱表达PDF2 years ago
- CVPRWebQA:多跳和多模态 QAPDF3 years ago
- ICLRPerceiver IO: 一种针对结构化输入输出的通用体系结构PDF3 years ago
- MDETR -- 基于调制的端到端多模态理解检测PDF3 years ago
- 用于解释双模态和编码器 - 解码器 transformers 的通用注意力模型可解释性PDF3 years ago
- AAAI在 Transformer 网络中利用层间和层内的全局表示来改进图像字幕生成PDF4 years ago
- CVPRX-Linear Attention Networks 图像标注PDF4 years ago
- IJCAI通过自适应推理和加权似然估计的生成式视觉对话系统PDF5 years ago
Prev
Next