Dec, 2023

视频文本对齐的强基准

TL;DR通过建立一个简单而强大的基于 Transformer 的模型,本研究考虑了视频和文本在时间上的对齐问题,并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素,实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。