Jan, 2025
LongViTU:用于长视频理解的指令调优
LongViTU: Instruction Tuning for Long-Form Video Understanding
TL;DR本文提出了LongViTU,一个自动生成的大规模数据集,涵盖长视频理解的121,000个问答对和900小时视频,有效填补了现有数据集在长期上下文和丰富知识推理方面的不足。通过将视频组织成层次树结构并引入自我修正机制,确保了数据集的高质量问答对。研究表明,在LongViTU基准上的进一步监督微调使得视频理解模型获得了显著的性能提升,强调了该数据集的实际应用潜力。