Mar, 2025

万物皆可用语言描述:一种简单的统一多模态框架,具有语义和时间对齐

TL;DR本研究解决了长视频问答(LVQA)中跨模态信息检索的困难,尤其是在信息稀疏分布的情况下。提出的UMaT框架将视觉和听觉数据转换为统一的文本表示,并通过时间对齐和自适应过滤来提升信息的相关性和准确性。实验表明,UMaT在多模态整合和稀疏信息检索方面优于现有方法,具有良好的可扩展性和可解释性,有助于推进长视频问答及长格式人工智能系统的发展。