注意力拼接：注意力如何解决语音编辑问题

Mar, 2024

注意力拼接：注意力如何解决语音编辑问题

AttentionStitch: How Attention Solves the Speech Editing Problem

Antonios Alexos, Pierre Baldi

TL;DR借助预训练的文本到语音模型，AttentionStitch 通过在其之上加入双重注意力块网络，自动将合成的梅尔频谱图与编辑文本的梅尔频谱图进行无缝融合，从而实现了高质量的语音编辑。

Abstract

The generation of natural and high-quality speech from text is a challenging problem in the field of natural language processing. In addition to speech generation, speech editing is also a crucial task, which req

speech generation speech editing text-to-speech model attention block network high-quality speech

发现论文，激发创造

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

使用基于注意力的音频 - 翻译对齐作为指南的同时语音翻译方法：AlignAtt

本研究提出了一种新的语音翻译策略 ——AlignAtt，利用注意力机制生成源 - 目标对齐，指导模型推断，实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略，并提高了 BLEU 分数和处理延迟降低。

May, 2023

注意力作为同时语音翻译的指南

本文提出了一种基于注意力机制和编码器 - 解码器注意力进行实时推理的注意力策略，并在 en -> {de, es} 上进行了测试，结果表明与现有技术相比，该策略在计算感知延迟方面的性能要好得多。

Dec, 2022

GraphSpeech: 基于语法感知的图注意力神经网络用于语音合成

GraphSpeech 是在图神经网络框架下提出的神经 TTS 模型，明确编码输入词汇单元在句子中的句法关系，并将此信息合并到 TTS 注意机制中产生用于文本合成的字符表示向量。实验表明，GraphSpeech 在频谱和韵律的呈现方面稳定优于 Transformer TTS 基线。

Oct, 2020

基于注意力机制的神经文本分割

本文提出了一种基于注意力机制的双向 LSTM 模型，使用卷积神经网络学习句子嵌入，利用上下文信息预测文本分段，相比现有的竞争基准方法，在三个基准数据集上的 WinDiff 分数提高了约 7%。

Aug, 2018

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

基于文本的人头视频编辑

该研究提出了一种基于转录的视频编辑新方法，可以实现修改视频内容、消除废话词，同时保持音视频流畅的无缝过渡，并使用注释参数和优化策略生成最终逼真的视频输出。

Jun, 2019

跨注意控制的提示到提示图像编辑

该文提出了一种基于文本的图像编辑框架，利用交叉注意力层控制图像布局和文本之间的关系，实现了在不改变原始内容情况下的全局和局部编辑，从而达到高质量的图像合成。

Aug, 2022

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020