使用字母到单词编码器进行单词级语音识别
本论文提出一种简单的端对端语音识别模型,用卷积神经网络基于声学模型和图解码相结合,通过输出字母实现语音转录,无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练,不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率,并在原始波形上得到有希望的结果。
Sep, 2016
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
本研究提出了一种基于 ConvNet 和 CTC(或 ASG)的字母语音模型,实现了与 WSJ 中最佳字母系统的匹配,并在 LibriSpeech 上展现了近乎最先进的表现。
Dec, 2017
本研究考察了神经网络在非书面语境下的词语发现任务中的应用,其中包括无监督和有限监督两种情形,结果表明在只有 5,157 个句子的情况下,使用编码器 - 解码器神经机器翻译系统进行训练可以检索出至少 27% 的词汇量。此外,我们的方法具有生成翻译对位的优势,这可用于创建双语词表。未来可以直接从语音输入中使用此方法。
Sep, 2017
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用,通过预置一个高时间缩小系数并在训练过程中逐步降低,以及使用辅助 CTC 损失函数等方法,证明了它的有效性和高性能。同时,还对基于子词单元的 LSTM 语言模型进行了训练,在无语言模型情况下,在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。
May, 2018
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019