Aug, 2016

使用连续奖励策略梯度学习在线对齐

TL;DR本研究提出一种使用硬实时在线对齐而非软离线对齐的序列到序列问题解决方法,使用硬二元随机决策来选择输出时间步,使用标准策略梯度方法训练该模型,以实现高精度的基于语音的实时翻译。在实验中,该模型在 TIMIT 和 WSJ 语音识别数据集上表现出令人鼓舞的性能。