BriefGPT.xyz
大模型
Ask
alpha
关键词
universal video-to-text model
搜索结果 - 1
VideoOFA: 为视频到文本生成进行的两阶段预训练
该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题,称为 VideoOFA 模型,在大规模图像 - 文本数据上预先训练表示学习,然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能,这使得该模型在四个视频
→
PDF
a year ago
Prev
Next