JoeyS2T：基于 JoeyNMT 的极简语音转文本建模

EMNLPOct, 2022

JoeyS2T：基于 JoeyNMT 的极简语音转文本建模

JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT

Mayumi Ohta, Julia Kreutzer, Stefan Riezler

TL;DRJoeyS2T 是一个扩展 JoeyNMT 用于语音转文字任务，如自动语音识别和端到端语音翻译的工具，使用卷积层等语音相关组件，并在英语语音识别和英语到德语语音翻译基准测试中表现良好。

Abstract

joeys2t is a JoeyNMT extension for speech-to-text tasks such as automatic speech recognition and end-to-end speech translation. It inherit

joeys2t speech-to-text automatic speech recognition end-to-end speech translation convolutional layers

发现论文，激发创造

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了 10 分钟的数据训练该技术，可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益，是首次建立了可用于多种语言对的无文本 S2ST 技术。

Dec, 2021

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

一种弱监督的流式多语言语音模型，具有真正的零 - shot 能力

本文介绍了建立流式多语言语音模型 (SM2) 的工作，基于 Transformer Transducer，使用弱监督数据通过机器翻译服务训练模型，拥有较强的流式能力和真正的零 - shot 能力，并取得了非常好的翻译质量。

Nov, 2022

fairseq S2T: 使用 fairseq 进行快速语音转文本建模

Fairseq S2T 是一款扩展 fairseq 的语音转文本建模工具，具备可扩展和可扩展性设计，提供端到端的工作流程，支持 RNN-based, Transformer-based 和 Conformer-based 模型，并可以无缝集成多任务学习或迁移学习中的机器翻译模型和语言模型。

Oct, 2020

SeamlessExpressiveLM: 链条思维情感语言模型用于表达性语音到语音翻译

提出了 SeamlessExpressiveLM，一个用于表情化语音到语音翻译的单一语言模型，通过分解复杂的源到目标语音映射为中间生成步骤，并结合思维链引导模型，实现了在西班牙语到英语和匈牙利语到英语翻译中优于级联语言模型的语义质量和风格转移效果，同时实现了更好的参数效率。

May, 2024

面向现实无文字语言的语音翻译

该论文以英文 - 台湾闽南语为案例，研究了语音到语音的翻译，包括数据收集、建模和基准数据集的发布。通过人工注释、数据自动挖掘以及伪标注方法，收集了大量数据。在模型训练中，结合最近的自监督离散表示的应用以及与福建话相似的普通话文本监督，取得了良好的效果。最后，该论文推出了一个 S2ST 基准数据集，以助于未来的研究。

Nov, 2022

MSLM-S2ST：一个适用于无文本语音到语音翻译的多任务语音语言模型，保持说话人风格

该研究提出了一种名为 Multitask Speech Language Model（MSLM）的解码器模型，通过在多任务环境下训练，实现了无需文本训练数据的多语言语音翻译（S2ST），并具备说话者风格保留的能力。

Mar, 2024

走向端到端的语音转文本摘要

将语音文字（S2T）摘要分为级联和端到端两种模型，并使用预训练的 T2T 摘要提取器进行迁移学习，进而将其应用于在线上传的广播新闻中。结果表明，端到端模型要略逊于级联模型，但都优于提取式基线模型。

Jun, 2023

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Aug, 2023