关键词audio-visual synchronisation
搜索结果 - 3
- GestSync:确定非言语角色的发言人
本文介绍了一项新的同步任务 Gesture-Sync:确定人的手势与他们的语言之间是否存在相关性。我们引入了一种双编码器模型进行这项任务,并比较了包括 RGB 帧、关键点图像和关键点向量在内的多种输入表示形式,评估了它们的性能和优势。我们展 - 可训练的选择器:稀疏时空音视频同步
探讨基于多模态转换模型处理视频的音视频同步问题,提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题,验证了该方法在稀疏和密集同步数据集上的优越性。
- 野外音视频同步
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。