基于部分推理和双向融合的文本语音编辑系统

Jul, 2021

基于部分推理和双向融合的文本语音编辑系统

EditSpeech: A Text Based Speech Editing System Using Partial Inference and Bidirectional Fusion

Daxin Tan, Liqun Deng, Yu Ting Yeung, Xin Jiang, Xiao Chen...

TL;DR本文介绍了一种名为 EditSpeech 的语音编辑系统的设计、实现和评估，该系统允许用户对给定的语音进行单词的删除、插入和替换，同时保持原始语音质量和自然度不受影响。EditSpeech 是基于神经文本到语音（NTTS）综合框架开发的，使用了部分推理和双向融合技术，有利于有效地吸收与编辑区域相关的上下文信息。在英语和汉语的多说话人场景下，EditSpeech 系统进行了开发和评估。客观和主观评估表明，EditSpeech 在低频谱变形和优选语音质量方面优于几种基线系统。此外，网络上可以找到此文的音频样例。

Abstract

This paper presents the design, implementation and evaluation of a speech editing system, named EditSpeech, which allows a user to perform deletion, insertion and replacement of words in a given speech utterance, without causing audible degradation in speech quality and naturalness. The EditSpeech system is developed upon a neural text-to-speech (NTTS) synth

speech editing system neural text-to-speech synthesis contextual information spectral distortion preferred speech quality

发现论文，激发创造

基于文本的人头视频编辑

该研究提出了一种基于转录的视频编辑新方法，可以实现修改视频内容、消除废话词，同时保持音视频流畅的无缝过渡，并使用注释参数和优化策略生成最终逼真的视频输出。

Jun, 2019

QuickEdit: 通过划掉单词进行文本和翻译编辑

提出了一个计算机辅助文本编辑的框架，通过神经序列到序列建模和引入一个以输入句子和更改标记为输入的神经网络来解决翻译后编辑和改写问题，并通过用户研究评估了该模型的效果。

Nov, 2017

FluentEditor：聲學和韻律一致性考慮下的基於文本的語音編輯

设计了一种流利的语音编辑模型，考虑了流畅感知训练标准，在语音编辑培训中通过声学一致性约束和韵律一致性约束实现流利的语音编辑，优于其他基线模型的自然度和流畅性。

Sep, 2023

CorrectSpeech: 一款全自动的语音纠正和口音减少系统

提出一种全自动的语音纠错和口音减少系统，称为 CorrectSpeech，能够识别、对齐、编辑语音，用于纠正不当用词、发音错误等问题。实验结果验证了该系统的实用性和效果，可用于语音录音的口音校正。

Apr, 2022

朝向交互式口述

语音输入越来越重要。我们研究了允许用户使用开放式自然语言中断他们的语音输入以实现编辑的可行性。我们引入了一个新的任务和数据集，TERTiUS，来实验这样的系统。通过使用大型预训练语言模型预测编辑后的文本或预测一个小型文本编辑程序，我们展示了模型准确性和延迟之间的自然权衡。

Jul, 2023

情感可选的端到端基于文本的语音编辑

本文旨在为基于文本的语音编辑任务中生成带有情感效果的语音提供一种新方法，我们提出了 Emo-CampNet 模型，它可以根据上下文的情况引入额外的情感属性，以控制所生成语音的情感。此外，我们还提出了数据增强方法和一种去除原始语音情感的中性内容生成器，以丰富模型的训练集并避免情感干扰。实验结果表明 Emo-CampNet 模型可以有效地控制语音情感并编辑无标记说话人的语音。

Dec, 2022

CampNet：基于上下文的端到端文本语音编辑中的掩码预测

该论文提出了一种新的基于文本的语音编辑方法，称为具有上下文感知的掩蔽预测网络（CampNet），该模型可通过随机屏蔽语音的一部分来模拟文本编辑过程，并通过感知语音上下文预测遮蔽区域。此外，论文还提出了三种基于 CampNet 的文本编辑操作：删除、插入和替换，以覆盖各种语音编辑场景，并通过使用仅一句话的说话人自适应方法和基于 CampNet 的少量样本学习探索了语音伪造任务。经过主观和客观实验，发现基于 CampNet 的语音编辑结果比 TTS 技术、手动编辑和 VoCo 方法更好。

Feb, 2022

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

uSee: 条件扩散模型下的统一语音增强与编辑

我们提出了一种统一的语音增强和编辑模型（uSee），它采用条件扩散模型以生成方式同时处理多种任务，能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件，包括自监督学习嵌入和适当的文本提示，我们的 uSee 模型可实现对源语音的可控生成，以进行相应操作。我们的实验显示，与其他相关生成式语音增强模型相比，我们提出的 uSee 模型在消除噪音和减轻混响方面具有出色的性能，并可根据所需的环境声音文本描述、信噪比和房间冲激响应进行语音编辑。可在此 https 网址查看生成语音的示例。

Oct, 2023

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022