Jun, 2023

通过语言模型预测手掌动作 @ Ego4D 长期行为预测挑战赛 2023

TL;DRPalm 是一种利用视觉语言和大型语言模型解决长期动作预测任务的解决方案,通过组合图像字幕模型和大型语言模型可以提高常识推理能力, 并在 EGO4D LTA 挑战赛中表现出比其他参与者更好的动作预测表现。