Nov, 2021

使用 Transformers 进行基于场景的情境识别

TL;DR本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型,通过有效地捕获图像的高层语义特征实现动词的精确定位,进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位,实现了该领域的最新进展,并在 SWiG 基准测试中实现了优异的表现。