序列标注任务中深度 LSTM 网络的最优超参数

EMNLPJul, 2017

序列标注任务中深度 LSTM 网络的最优超参数

Optimal Hyperparameters for Deep LSTM-Networks for Sequence Labeling Tasks

Nils Reimers, Iryna Gurevych

TL;DR通过评估超过 50,000 种不同的设置，我们发现网络设计选择和超参数对五个常见的语言序列标记任务，即 POS、块状、NER、实体识别和事件检测有显着影响，尤其是预先训练的词嵌入或者网路的最后一层。对于 LSTM 层数或循环单元的数量等其他参数相对不太重要。我们建议一种配置，可以在不同任务之间表现优异。

Abstract

Selecting optimal parameters for a neural network architecture can often make the difference between mediocre and state-of-the-art performance. However, little is published which parameters and design choices should be evaluated or selected making the correct →

neural network architecture hyperparameter optimization sequence tagging tasks pre-trained word embeddings lstm layers

发现论文，激发创造

LSTM 网络基准测试

该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果，并探讨了不同架构和超参数选择对性能的影响。该研究表明：（1）LSTM 性能平滑地取决于学习率，（2）批处理和动量对性能没有显着影响，（3）softmax 训练优于最小二乘训练，（4）孔径单元无用，（5）标准非线性函数（tanh 和 sigmoid）性能最佳，（6）将双向训练与 CTC 相结合比其他方法表现更好。

Aug, 2015

神经语言模型评估的现状

通过使用自动超参数调整，重新评估了几种流行的神经网络架构和正则化方法，得出了标准 LSTM 架构在合适的正则化情况下优于更新模型的惊人结论，并在 Penn Treebank 和 Wikitext-2 语料库上建立了新的最先进技术水平，以及在 Hutter Prize 数据集上建立了强大的基准线。

Jul, 2017

LSTM: 一次搜索空间的奥德赛

本文针对典型 Long Short-Term Memory（LSTM）网络的各种计算组件的角色和实用性进行了大规模分析，并在三个代表性任务上比较了八种 LSTM 变体。结果表明，遗忘门和输出激活函数是 LSTM 架构最关键的组件。此外，在研究的超参数方面，我们发现它们几乎是独立的，并提出了调整它们的有效指导方针。

Mar, 2015

神经序列标注的设计挑战和误解

本文研究了构建有效和高效神经序列标记系统的设计挑战，通过复现 12 个模型，在三个基准测试中进行系统模型比较，消除现有文献中的误解和不一致的结论，并得出了一些对从业者有用的实用结论。

Jun, 2018

报告评分分布很重要：LSTM 网络的序列标记性能研究

本文探讨了单一性能评分不足以比较非确定性方法的问题，并通过对序列标记任务的实验表明，随机数种子的选择可以导致最先进系统的 F1 得分的绝对差异，提出通过多次执行比较分数分布的方法，通过五项序列标记任务的实验，提出了产生优越性能和更稳定的网络体系结构。

Jul, 2017

基于字符的神经元形态标注方法用于形态丰富语言

本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注，结合双向 LSTMs 建模跨单词上下文，发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响，通过增加深度优化神经网络可显著提高标注器准确度，最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。

Jun, 2016

双向 LSTM-CNNs-CRF 的端到端序列标注

本文提出了一种新颖的神经网络体系结构，该体系结构利用了双向 LSTM，CNN 和 CRF 的组合，自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的，不需要特征工程或数据预处理，因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估，即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55％，命名实体识别的 F1 值为 91.21％。

Mar, 2016

利用任务感知的神经语言模型增强序列标注

本研究提出了一种新颖的神经网络框架，将预先训练好的字级知识和字符感知神经语言模型相结合，利用转移学习技术实现不依赖于额外监督信号的序列标注任务，并在基准数据集上通过大量实验验证了其有效性和高效性。

Sep, 2017

基于概率的时间序列预测中多层感知器神经网络的超参数调优

我们的研究主要关注于考察与时间序列相关的特定超参数（如上下文长度和验证策略）对时间序列预测中最先进的 MLP 模型性能的影响，通过对 20 个时间序列预测数据集进行了 4800 种配置的广泛实验，我们的研究结果表明这些参数的调整对性能至关重要。此外，我们还引入了迄今为止最大的用于时间序列预测的元数据集 TSBench，包括 97200 个评估，相较于该领域的先前作品增加了 20 倍。最后，我们展示了该创建的元数据集在多保真度超参数优化任务中的实用性。

Mar, 2024

序列标注：实用方法

通过使用通用的基于 Bi-LSTM 的神经序列标注模型，其应用于广泛的自然语言处理任务和语言，结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测，本研究在 8 个基准数据集上对其性能进行了评估，其结果在 4 个数据集上取得了最佳的表现。

Aug, 2018