基于字符的神经嵌入用于推文聚类
本文提出一种基于循环神经网络的语言模型,并利用字符信息中的 n-gram 构建单词嵌入,结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度,同时在机器翻译和标题生成等应用任务中也表现出较好的性能。
Jun, 2019
本研究提出了一个基于字符组合的 tweet2vec 模型,通过学习字符序列中复杂的非局部依赖关系,找到整个推文的向量表示,相比基于单词的方法在处理社交媒体文本时表现更佳。
May, 2016
Tweet2Vec 是一种新方法,用于通过字符级别的 CNN-LSTM 编码器 - 解码器生成推文的通用向量表示形式,可应用于推文的各种分类任务,并且该方法也适用于其他语言。
Jul, 2016
该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013
本文介绍了一种基于 CharWNN 深度神经网络的自适应特征命名实体识别系统,使用自动学习特征实现多语种 NER 任务,证明了字符嵌入在 NER 中的有效性。试验结果表明,CharWNN 的性能优于现有最先进的系统。
May, 2015
本文研究了利用基于字符的词表示提高标准 CNN 关系提取模型性能。研究比较了两种常见神经结构 CNN 和 LSTM,通过在 BioCreative-V CDR 语料库上实验显示,利用基于字符的词表示的模型相对于之前的神经网络方法在提取化学物质和疾病之间的关系时有着最先进的表现。
May, 2018
使用字符级别的注意力和事先训练好的子 / 词级别的嵌入向神经网络提供更多语言学信息,而不需要大量的平行语料库,从而帮助神经网络在标准阿拉伯语语言纠错共享任务数据集上实现最先进的 F1 分数。
Sep, 2018
本文通过构建大规模数据集,比较了基于字级别的卷积神经网络与传统模型如词袋、n-gram 及基于词的卷积神经网络和循环神经网络在文本分类方面的表现。结果表明,基于字级别的卷积神经网络能够达到当前领域最佳或竞争性的结果。
Sep, 2015
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
本文介绍了一种新颖的深度学习框架,包括基于词汇表的方法用于句子级别情感标签预测。我们首先应用语义规则,然后使用深度卷积神经网络(DeepCNN)进行字符级嵌入,以增加词级嵌入的信息。然后,双向长短期记忆网络(Bi-LSTM)从词级嵌入中产生句子级特征表示。我们在三个 Twitter 情感分类数据集上评估了我们的方法。实验结果表明,我们的模型可以提高 Twitter 社交网络中句子级情感分析的分类准确性。
Jun, 2017