ANIM-400K：一个大规模数据集用于视频自动配音的端到端系统

Jan, 2024

ANIM-400K：一个大规模数据集用于视频自动配音的端到端系统

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

Kevin Cai, Chonghua Liu, David M. Chan

TL;DR我们介绍了 Anim-400K，这是一个包含超过 425K 对齐的日语和英语动画视频片段的全面数据集，支持各种与视频相关的任务，包括自动配音、同声翻译、引导式视频摘要和类型 / 主题 / 风格分类。我们的数据集已公开发布供研究目的使用。

Abstract

The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of →

internet content automated dubbing video data scarcity dataset

发现论文，激发创造

实际配音：人类本土化的大规模研究及对自动补音的启示

本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务，利用了 319.57 小时的录像数据，结果挑战了一些关于人类配音和自动配音的普遍假定，论证了口头自然和翻译质量的重要性，同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响，强调自动配音系统需要更好地保留这些语音特征和语义转换，同时要重视时长约束。

Dec, 2022

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

用于将大规模跨语言配音的技术管道应用于多种印度语言的讲座视频

本文描述了将英语讲座视频半自动化地翻译成 9 种印度语言，使其具有良好的口头表现，同时降低了 75% 的人工成本。

Nov, 2022

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集 BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。

May, 2023

一个高质量且大规模的英越语音翻译数据集

本研究介绍了一个高质量和大规模的英越语音翻译基准数据集，并使用强基线进行实证实验，发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法，这是有关大规模英越语音翻译的第一项研究，我们的数据集和研究可用于未来研究和应用的起点。

Aug, 2022

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

AV-Deepfake1M：大规模基于 LLM 的视听深度伪造数据集

本研究针对高度逼真的深度伪造音视频内容的检测和定位问题提出了 AV-Deepfake1M 数据集，并通过全面的描述和严格的数据质量分析，使用先进的深度伪造检测和定位方法进行了综合基准测试，结果显示与之前数据集相比性能大幅下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。

Nov, 2023

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

Panda-70M：使用多个跨模态教师为 70M 视频加上字幕

通过多模态输入构建高质量视频数据集，使用检索模型选择最佳字幕注释，名为 Panda-70M，训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。

Feb, 2024