关键词transformer decoder architecture
搜索结果 - 2
- VoiceCraft: 野外零射语音编辑与文本转语音
VoiceCraft 是一种令牌填充的神经编解码语言模型,不仅在语音编辑和零样本文本到语音的任务上取得了最先进的性能,而且在人工评估中,VoiceCraft 生成的编辑后语音与未编辑的语音几乎无法区分;我们的模型在包含不同口音、说话风格、录 - 非自回归推理的流式对齐调整
提出了一种流式非自回归(non-AR)解码算法,其利用新型变换器解码器架构在每个帧上执行文本和音频的本地自我关注,并在每个层上进行时间对齐的交叉关注,实现了高效率和低延迟,在声音搜索数据集和 Librispeech 上的实验显示,我们的流式