Apr, 2025
Ask2Loc:通过提问学习定位指导性视觉答案
Ask2Loc: Learning to Locate Instructional Visual Answers by Asking
Questions
TL;DR本研究解决了在指导性视频中定位特定片段的难题,提出了一个新任务In-VAL,模拟人类与视频多次互动获取视觉答案的过程。通过Ask2Loc框架,研究引入了聊天、重写和搜索三大模块,有效应对用户意图模糊、字幕语言不全和视频内容片段化等问题,其性能在In-VAL任务上相比传统方法提升了最高14.91(mIoU)。