Jul, 2023

将更多关注转移到视觉语言对象追踪上

TL;DR我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。