Sep, 2024

PiTe:大规模视频语言模型的像素时间对齐

TL;DR该研究解决了视频语言模型在处理语言与时空数据复杂关系时存在的不足,提出了一种通过对象轨迹进行细粒度对齐的新方法PiTe。研究结果显示,该方法在众多视频相关的多模态任务中显著超越了现有最先进的方法,展现出良好的应用潜力。