BriefGPT.xyz
Ask
alpha
关键词
vision-and-language reasoning
搜索结果 - 3
仅依据指定的语言目标进行物体检测
本文探讨了一种将物体检测转化为视觉与语言推理任务的方法,并提出了一种基于 Transformer 的编码器 - 解码器体系结构下的语言目标检测器(LTD),该方法将文本输入作为语言上下文进行推理,扩展了现有物体检测器的分类功能。通过对 CO
→
PDF
2 years ago
EMNLP
端到端和神经符号视觉语言推理系统之间的泛化差异
本文探讨了深度学习中基于神经网络的联合算是和符号逻辑算法的表现优势,并着重研究了基于多种泛化测试的性能。实验结果表明,这两种方法各具优势,使用多种泛化测试可以更全面的评估模型健壮性和通用性。
PDF
2 years ago
EMNLP
LXMERT:使用 Transformers 学习跨模态编码器表示
本文介绍了使用 LXMERT 框架进行视觉 - 语言推理的方法。该框架包括一个基于 Transformer 模型的对象关系编码器、语言编码器和跨模态编码器,并通过大量图像 - 句子对进行预训练,以学习在这两个模态之间的关系。通过微调这个预训
→
PDF
5 years ago
Prev
Next