BriefGPT.xyz
Ask
alpha
关键词
video captioning models
搜索结果 - 1
递归字幕:对小时长视频的递归字幕
我们提出了 Video ReCap,一种递归视频字幕模型,可以处理时长从 1 秒到 2 小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频 - 语言架构可以高效地处理长达数小时的视频。
→
PDF
5 months ago
Prev
Next