CVPRApr, 2024

语言模型引导的可解释视频行为推理

TL;DR通过语言模型引导的可解释的动作识别框架 (LaIAR),提高了视频模型的性能和可解释性。