ANIM-400K:一个大规模数据集用于视频自动配音的端到端系统
本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务,利用了 319.57 小时的录像数据,结果挑战了一些关于人类配音和自动配音的普遍假定,论证了口头自然和翻译质量的重要性,同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响,强调自动配音系统需要更好地保留这些语音特征和语义转换,同时要重视时长约束。
Dec, 2022
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本研究提出了一个大规模的视频字幕翻译数据集 BigVideo,用于促进多模态机器翻译的研究;在跨模态编码器中引入了对比学习方法,结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。
May, 2023
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
Aug, 2022
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
本研究针对高度逼真的深度伪造音视频内容的检测和定位问题提出了 AV-Deepfake1M 数据集,并通过全面的描述和严格的数据质量分析,使用先进的深度伪造检测和定位方法进行了综合基准测试,结果显示与之前数据集相比性能大幅下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。
Nov, 2023
该研究针对影视配音中原始语音和目标语音的对齐问题,提出一种机器翻译系统,通过考虑语音时长控制翻译长度,构建了真实世界情景下的测试集,实现了对自然长度的更好控制。
Nov, 2022
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为 Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
Feb, 2024