AAAIDec, 2023

迈向平衡对齐:视频时刻检索的模态增强语义建模

TL;DR通过提升视频模态和文本模态的特征,Modal-Enhanced Semantic Modeling(MESM)框架在视频短片检索中实现了更平衡的对齐,填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。