Apr, 2024

基于场景上下文的视觉引用表达生成中的弹性

TL;DR探究场景背景在图像中物体指称生成中的作用,并以转换器为基础的 REG 模型为训练和测试对象,结果显示即使简单的场景背景也能使模型对干扰具有出乎意料的韧性,甚至在完全缺失目标的视觉信息情况下也能辨别出指称类型。