回归语言循环模型
通过使用自动超参数调整,重新评估了几种流行的神经网络架构和正则化方法,得出了标准 LSTM 架构在合适的正则化情况下优于更新模型的惊人结论,并在 Penn Treebank 和 Wikitext-2 语料库上建立了新的最先进技术水平,以及在 Hutter Prize 数据集上建立了强大的基准线。
Jul, 2017
本文研究了递归神经网络在大规模语言建模中的最新进展和应用,对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨,并在 One Billion Word Benchmark 上进行了详尽的研究,最佳单一模型将习惯度从 51.3 降低到 30.0,而模型集成则创下了 41.0 到 23.7 的新纪录,在总结中,研究结果可供自然语言处理和机器学习界进一步研究和提高。
Feb, 2016
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
本研究介绍了一种基于卷积神经网络的语言模型,适用于统计语言建模任务,在图像字幕生成中表现出竞争性能。相比以前的模型,它使用所有先前的单词进行训练,可以模拟历史单词的长期依赖性,这对图像字幕生成至关重要。该方法在 MS COCO 和 Flickr30K 两个数据集上进行了验证,实验结果显示,相较于基于循环神经网络的语言模型表现更佳,且具有竞争性的最先进技术。
Dec, 2016
使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模,通过字符级别的生成实现不同语言之间的数据共享,进而可以有效解决固定词汇量模型中常见的新词问题。
Apr, 2017
本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展,提高了对大型语料库的处理能力,并在字符级(Penn Treebank,enwik8)和单词级(WikiText-103)数据集上分别取得了最新的最高水平结果,而且只用了一台现代 GPU,最快只需 12 小时(WikiText-103)或 2 天(enwik8)即可。
Mar, 2018
该研究提出了一种有效的迁移学习方法,使用具有长短期记忆体系结构的循环神经网络对个性化语言模型进行训练。通过实验证明,我们的迁移学习方法成功生成了个性化语言模型,并在定量和定性方面表现出更接近个人语言风格的输出,尤其适用于移动设备环境以保护数据隐私。
Jan, 2017