本研究提出了一种基于改进的注意力机制加上位置感知的模型,解决了长输入音频识别中的问题并且有效降低了音素错误率。
Jun, 2015
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。
Dec, 2019
本研究提出了一种新的语音翻译策略 ——AlignAtt,利用注意力机制生成源 - 目标对齐,指导模型推断,实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略,并提高了 BLEU 分数和处理延迟降低。
May, 2023
本文提出了一种基于注意力机制和编码器 - 解码器注意力进行实时推理的注意力策略,并在 en -> {de, es} 上进行了测试,结果表明与现有技术相比,该策略在计算感知延迟方面的性能要好得多。
Dec, 2022
GraphSpeech 是在图神经网络框架下提出的神经 TTS 模型,明确编码输入词汇单元在句子中的句法关系,并将此信息合并到 TTS 注意机制中产生用于文本合成的字符表示向量。实验表明,GraphSpeech 在频谱和韵律的呈现方面稳定优于 Transformer TTS 基线。
Oct, 2020
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
Aug, 2018
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
Jan, 2022
该研究提出了一种基于转录的视频编辑新方法,可以实现修改视频内容、消除废话词,同时保持音视频流畅的无缝过渡,并使用注释参数和优化策略生成最终逼真的视频输出。
Jun, 2019
该文提出了一种基于文本的图像编辑框架,利用交叉注意力层控制图像布局和文本之间的关系,实现了在不改变原始内容情况下的全局和局部编辑,从而达到高质量的图像合成。
Aug, 2022
本文提出了一种多任务学习框架,利用文本数据来提高自动语音识别和语音翻译的性能,其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中,该方法相对于基线线下降了 10~15% 的词错误率,在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。