序列标注任务中深度 LSTM 网络的最优超参数
该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果,并探讨了不同架构和超参数选择对性能的影响。该研究表明:(1)LSTM 性能平滑地取决于学习率,(2)批处理和动量对性能没有显着影响,(3)softmax 训练优于最小二乘训练,(4)孔径单元无用,(5)标准非线性函数(tanh 和 sigmoid)性能最佳,(6)将双向训练与 CTC 相结合比其他方法表现更好。
Aug, 2015
通过使用自动超参数调整,重新评估了几种流行的神经网络架构和正则化方法,得出了标准 LSTM 架构在合适的正则化情况下优于更新模型的惊人结论,并在 Penn Treebank 和 Wikitext-2 语料库上建立了新的最先进技术水平,以及在 Hutter Prize 数据集上建立了强大的基准线。
Jul, 2017
本文针对典型 Long Short-Term Memory(LSTM)网络的各种计算组件的角色和实用性进行了大规模分析,并在三个代表性任务上比较了八种 LSTM 变体。结果表明,遗忘门和输出激活函数是 LSTM 架构最关键的组件。此外,在研究的超参数方面,我们发现它们几乎是独立的,并提出了调整它们的有效指导方针。
Mar, 2015
本文研究了构建有效和高效神经序列标记系统的设计挑战,通过复现 12 个模型,在三个基准测试中进行系统模型比较,消除现有文献中的误解和不一致的结论,并得出了一些对从业者有用的实用结论。
Jun, 2018
本文探讨了单一性能评分不足以比较非确定性方法的问题,并通过对序列标记任务的实验表明,随机数种子的选择可以导致最先进系统的 F1 得分的绝对差异,提出通过多次执行比较分数分布的方法,通过五项序列标记任务的实验,提出了产生优越性能和更稳定的网络体系结构。
Jul, 2017
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
本文提出了一种新颖的神经网络体系结构,该体系结构利用了双向 LSTM,CNN 和 CRF 的组合,自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估,即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55%,命名实体识别的 F1 值为 91.21%。
Mar, 2016
本研究提出了一种新颖的神经网络框架,将预先训练好的字级知识和字符感知神经语言模型相结合,利用转移学习技术实现不依赖于额外监督信号的序列标注任务,并在基准数据集上通过大量实验验证了其有效性和高效性。
Sep, 2017
我们的研究主要关注于考察与时间序列相关的特定超参数(如上下文长度和验证策略)对时间序列预测中最先进的 MLP 模型性能的影响,通过对 20 个时间序列预测数据集进行了 4800 种配置的广泛实验,我们的研究结果表明这些参数的调整对性能至关重要。此外,我们还引入了迄今为止最大的用于时间序列预测的元数据集 TSBench,包括 97200 个评估,相较于该领域的先前作品增加了 20 倍。最后,我们展示了该创建的元数据集在多保真度超参数优化任务中的实用性。
Mar, 2024
通过使用通用的基于 Bi-LSTM 的神经序列标注模型,其应用于广泛的自然语言处理任务和语言,结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测,本研究在 8 个基准数据集上对其性能进行了评估,其结果在 4 个数据集上取得了最佳的表现。
Aug, 2018