VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

May, 2023

VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation

Tianrui Wang, Long Zhou, Ziqiang Zhang, Yu Wu, Shujie Liu...

TL;DR本研究提出了 VioLA 模型，它是一个单自回归 Transformer 解码器网络，通过多任务学习框架，将涉及语音和文本的各种跨模态任务统一为条件编解码器语言模型任务。该模型通过离线神经编解码器将所有语音话语转换为离散标记，进而将所有任务转换为基于标记的序列转换问题，进而自然地使用一个条件语言模型处理。研究表明，VioLA 模型可良好地支持单模和跨模任务，并且解码器模型优于强基线性能。

Abstract

Recent research shows a big convergence in model architecture, training objectives, and inference methods across various tasks for different modalities. In this paper, we propose viola, a single auto-regressive Transformer decoder-only network that unifies various cross-modal tasks inv

viola auto-regressive transformer multi-task learning conditional language model speech and text

发现论文，激发创造

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

该研究提出了 ELLAA-V，一种基于语言模型的零样本文本转语音框架，可以在音素级别实现合成音频的细粒度控制，并且在准确性和稳定性方面优于现有方法。

Jan, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

使用您自己的语音发出外语：跨语言神经编解码语言建模

本研究提出了一种跨语言神经编解码语言模型，VALL-E X，用于跨语言语音合成，并通过实验证明其在零样本跨语言文本到语音合成和零样本语音到语音翻译任务中能够生成质量高的语音。此外，VALL-E X 可有效缓解外国口音问题，可通过语言 ID 控制。

Mar, 2023

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

Voxtlm: 统一的解码器模型用于集成语音识别 / 合成和语音 / 文本延续任务

我们提出了一种仅解码的语言模型 VoxtLM，可以执行四个任务：语音识别、语音合成、文本生成和语音延续。与单任务模型相比，VoxtLM 在语音合成方面显示出显著改进，语音可懂度从 28.9 提高到 5.6，客观质量从 2.68 提高到 3.90。VoxtLM 还改善了语音生成和语音识别的性能。 VoxtLM 使用公开可用的数据进行训练，并将训练配方和模型检查点开源，使工作能够完全可复现。

Sep, 2023

TVLT: 无文本的视觉语言变换器

该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT)，采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息，用 mask-autoencoding 和对比建模实现视频与音频的对齐，并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现，推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。

Sep, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021