使用 Truecasing 预训练的鲁棒命名实体识别
本研究通过修改大小写来解决 NLP 任务中大写信号的问题,将大小写训练数据串联起来可以使模型在大小写文本中都拥有良好的性能,同时对嘈杂的 Twitter 数据进行测试,结果表明我们的解决方案提高了 8%的 F1 检测率。
Mar, 2019
本研究提出了一种基于递归神经网络的两级分层的单词和字符的快速,准确和紧凑的文本真实大小写还原模型,该模型被用于在联合学习框架下的语言建模。经过归一化处理的语料库的语言模型表现与完美大小写匹配处理的语料库的模型表现相当,这对于虚拟键盘应用程序中的减少预测误差率至关重要。在用户 A/B 实验中,我们还展示了该模型能够减少语音识别中的大写字符错误率和单词错误率。
Feb, 2022
本文提出一种使用卷积神经网络 (CNN)、双向长短期记忆网络 (LSTM) 和条件随机场 (CRF) 相结合的架构,在字符级别上对大小写进行恢复,从而提高自然语言处理中后续处理任务的准确性。与传统基于统计和深度学习的方法相比,我们提出的方法在 F1 得分上展现出 0.83 的提升,由于 Truecasing 在多种处理任务中通常用作预处理步骤,因此 F1 得分的每个增加都将带来非常显著的语言处理任务改进。
Jan, 2020
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
文中通过数据增强的方法,提出了一种基于学习的 Named entity recognition 方法,可以很好地识别大小写错误,而不影响其在规范文本上的性能,并显著提高了对异体用户文本的泛化能力。
Nov, 2019
本论文提出了一种基于预训练掩码语言模型,如 BERT、BioBERT 和 RoBERTa 的条件联合建模框架,用于预测标点符号和大小写,并介绍了域和任务特定自适应技术和数据增强方法,可提高医学领域 ASR 系统输出的识别准确率。实验结果表明,所提出的模型在字典和会话样式语料库上,相对于基线模型,F1 度量下实现了~5% 的绝对改进和~10% 的 ASR 输出优化。
Jul, 2020
本文介绍了一种基于大规模语言模型的命名实体识别预训练方法,通过构建大型高质量命名实体语料库,最终得到的 NER-BERT 模型在九个不同领域的低资源场景下明显优于其他模型。
Dec, 2021
应用预训练的基于字符的语言模型,成功提升了历史德语低资源命名实体识别准确性,并相较于经典 CRF-based 方法和 Bi-LSTMs,提高了高达 6% 的 F1 得分表现。
Jun, 2019
本研究使用神经网络进行语言表示,探讨在葡语 NER 任务中使用 Portuguese BERT 和 BERT-CRF 结构的转移学习能力,采用基于特征和微调的训练策略,最终实现了比现有最优模型更好的结果。
Sep, 2019