CVPRJun, 2024

HCQA @ Ego4D EgoSchema Challenge 2024

TL;DR我们提出了一种新颖的分层理解方案 HCQA,用于自我中心视频问答,其中包括精细的字幕生成、上下文驱动的摘要生成和推理引导的回答。在 EgoSchema 盲测集中,HCQA 在回答超过 5000 个人工多项选择题中达到了 75% 的准确率。