具高效的分层变换器的生成式预训练语音语言模型

ACLJun, 2024

具高效的分层变换器的生成式预训练语音语言模型

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

Yongxin Zhu, Dan Su, Liqiang He, Linli Xu, Dong Yu

TL;DR我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST)，它将音频波形量化为两种不同类型的离散语音表示，并在层次变压器架构中进行集成，从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练，GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示，GPST 可以产生自然连贯的个性化语音，展示了上下文学习能力。此外，我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明，GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。

Abstract

While recent advancements in speech language models have achieved significant progress, they face remarkable challenges in modeling the long acoustic sequences of neural audio codecs. In this paper, we introduce

speech language models neural audio codecs gpst hierarchical transformer speech generation

发现论文，激发创造

预训练的结构化生成变换器：规模化的无监督句法语言模型

使用大规模预训练结构转换器的句法语言模型（SLM），通过从头开始在原始文本上进行高并行度的无监督训练，弥补了以前的 SLM 存在的限制，如依赖于黄金树和顺序训练。同时，我们介绍了一个表示替代方法，以在硬 EM 方式下联合并行训练模型，证明了 Generative Pretrained Structured Transformers（GPST）在语言理解和语言生成等多个任务中相比 GPT-2 具有可比大小时的优越性，同时在左到右语法归纳方面也显著优于现有的无监督 SLM，并具有训练加速的优势。

Mar, 2024

LauraGPT: 听、关注、理解与重建音频的 GPT

本文提出了 LauraGPT，一个统一的 GPT 模型，用于音频识别、理解和生成，实现了在多个音频处理基准测试上与现有 SOTA 模型相媲美或卓越的性能。

Oct, 2023

基于韵律的无文本生成式语音语言建模

本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM)，利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明，该模型可以显著提高韵律和内容建模，并能够生成自然、有意义和连贯的语音。

Sep, 2021

层次化生成预训练变压器用于时间序列预测

提出了一种名为 GPHT 的新型生成预训练分层变压器架构，通过引入高级网络结构和自监督预训练策略来提高时间序列预测的准确性，并在充足的实验验证中证明其超越了传统预训练模型和监督模型，在传统长期预测任务中取得了良好的效果。

Feb, 2024

TEMPO：面向时间序列预测的基于提示的生成预训练变换器

TEMPO 是一个基于时间序列的新框架，通过利用时序任务的两个基本归纳偏好来有效学习时间序列表示，展现出超过 20% 至 60% 的改善性能，并在标准监督学习和之前未见数据集的情景中观察到。

Oct, 2023

TrackGPT -- 用于跨领域实体轨迹预测的生成式预训练转换器

TrackGPT 是一种基于 GPT 的模型，可用于实体轨迹预测，并在测距和空间两个领域表现出强大的性能，同时保持领域无关性和最小化数据特征要求。

Jan, 2024

数据驱动语音增强方法自动文献综述的实验

本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研，评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性，尽管自动化文献调研在声学领域具有巨大潜力，但仍需要改进以更清晰准确地回答技术问题。

Oct, 2023

从文本预测端到端语音合成中的表现性语音风格

本文介绍了一种名为 “Text-Predicted Global Style Token” 的结构，能够使用 GST 技术，仅通过文本预测生成带有语音样式的合成语音，无需显式标签或辅助输入，并证明其能生成比两种基线模型更多具有音高和能量变化的音频，并且能够成功地分离说话者身份和语音风格。

Aug, 2018

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Aug, 2023

GPT-ST：时空图神经网络的生成式预训练

该研究提出了一个融入下游基线模型并提升其性能的时空预训练框架，其中包括一个时空蒙版自编码器和一个自适应蒙版策略，通过学习时空依赖关系和不同关系的建模，在交通管理和旅行规划方面取得了显著的效果。

Nov, 2023