Jun, 2024

实时视频字幕

TL;DR该研究介绍了一种新的在线方法,用于在视频流中生成密集的视频描述并解决在线场景中的挑战,该方法结合了可变形变换和时间滤波。通过在 ActivityNet Captions 数据集上进行实验评估,验证了该方法在实时响应和性能方面相对于现有离线方法的优越性,并提供了模型结果和融入了新型评估指标的评估工具包以鼓励进一步的 LVC 研究。