Nov, 2018

只需 Bytes:使用 Bytes 实现端到端多语言语音识别和合成

TL;DR本文提出了两个端到端模型:Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A),用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本,并且通过使用字节代替大的 softmax 函数,不同语言之间可以共享表示。同时通过引入字节表示,作者在单语言和多语言模型的表现中都获得了很好的结果。