BriefGPT.xyz
Ask
alpha
关键词
temporal video-text alignment
搜索结果 - 1
视频文本对齐的强基准
通过建立一个简单而强大的基于 Transformer 的模型,本研究考虑了视频和文本在时间上的对齐问题,并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素,实现了在叙述对齐和步骤对应
→
PDF
7 months ago
Prev
Next