SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕

Jul, 2017

SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕

SPEECH-COCO: 600k Visually Grounded Spoken Captions Aligned to MSCOCO Data Set

William Havard, Laurent Besacier, Olivier Rosec

TL;DR本研究介绍了 MSCOCO 数据集的增强版本，其中添加了语音和文本。使用文本转语音（TTS）合成生成语音说明，在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉（LaVi）任务，其中包括语音输入或输出。同时在此数据集的一个子集上进行了初步的研究，探索了无监督语音模式发现的多模态学习方案。

Abstract

This paper presents an augmentation of mscoco dataset where speech is added to image and text. Speech captions are generated using text-to-speech (TTS) synthesis resulting in 616,767 spoken captions (more than 600h) paired with images. Disfluencies and speed perturbation are added to t

mscoco dataset speech caption text-to-speech synthesis language and vision tasks multimodal learning

发现论文，激发创造

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验，并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

从口语词汇生成合成语音用于语音翻译

该论文提出了一种名为 SpokenVocab 的数据增强技术，可将机器翻译数据转换为语音翻译数据，从而消除了数据稀缺的问题，并取得了比基线更好的效果，同时适用于代码切换语音翻译领域。

Oct, 2022

Panda-70M：使用多个跨模态教师为 70M 视频加上字幕

通过多模态输入构建高质量视频数据集，使用检索模型选择最佳字幕注释，名为 Panda-70M，训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。

Feb, 2024

Microsoft COCO 图片描述数据集与评估服务器

本文描述了 Microsoft COCO Caption 数据集和评估服务器，数据集包含超过一百五十万个关于 330,000 张图像的描述性标题，并提供了基于 BLEU, METEOR, ROUGE 和 CIDEr 多个流行度量标准的算法评估方法。

Apr, 2015

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成

本文提出了一种强大而高效的图像到语音字幕（Im2Sp）模型构建方法，引入了大规模预训练的视觉 - 语言模型相关知识，并将其输出设置为离散化的语音单元，即自我监督语音模型的量化语音特征，以实现将预训练的视觉 - 语言模型的语言建模能力融入到 Im2Sp 的口语化建模中，从而在广泛使用的基准数据库 COCO 和 Flickr8k 上取得了新的最先进的 Im2Sp 性能，并进一步提高了 Im2Sp 模型的效率。

Sep, 2023

Speech Wikimedia：一个包含 77 种语言的多语言语音数据集

维基媒体数据集是一个公开可用的音频和转录汇编，包含来自维基共享资源的 1780 小时（195GB）CC-BY-SA 许可的转录语音，在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录，使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。

Aug, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014