Sep, 2020

余弦相似度与 softmax 结合:视觉定位难以超越的基线模型

TL;DR本文提出了一种在多个图像 ROI 特征和文本嵌入之间的余弦距离上最小化交叉熵损失来实现自动驾驶视觉定位的简单方法,使用预训练网络获得初始嵌入,同时实验结果表明比采用精细注意机制或复杂度损失函数的方法表现更优,AP50 准确率达到 68.7%。