基于字符的神经嵌入用于推文聚类

ACLMar, 2017

基于字符的神经嵌入用于推文聚类

Character-based Neural Embeddings for Tweet Clustering

Svitlana Vakulenko, Lyndon Nixon, Mihai Lupu

TL;DR本文探讨了如何运用基于字符的神经网络提高推文聚类的性能，解决了基于词语的模型中词汇膨胀的限制，并实现了对多语言内容的无缝处理。

Abstract

In this paper we show how the performance of tweet clustering can be improved by leveraging character-based neural networks. The proposed approach overcomes the limitations related to the →

tweet clustering neural networks multilingual content vocabulary explosion performance improvement

发现论文，激发创造

利用字符 n-gram 嵌入来提高循环神经网络语言模型

本文提出一种基于循环神经网络的语言模型，并利用字符信息中的 n-gram 构建单词嵌入，结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度，同时在机器翻译和标题生成等应用任务中也表现出较好的性能。

Jun, 2019

Tweet2Vec：社交媒体基于字符的分布式表示

本研究提出了一个基于字符组合的 tweet2vec 模型，通过学习字符序列中复杂的非局部依赖关系，找到整个推文的向量表示，相比基于单词的方法在处理社交媒体文本时表现更佳。

May, 2016

Tweet2Vec: 使用字符级 CNN-LSTM 编码器 - 解码器学习推文嵌入

Tweet2Vec 是一种新方法，用于通过字符级别的 CNN-LSTM 编码器 - 解码器生成推文的通用向量表示形式，可应用于推文的各种分类任务，并且该方法也适用于其他语言。

Jul, 2016

基于字符级文本嵌入的文本分割

该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示，并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征，以实现比表面字符 n-gram 更好的结果。

Sep, 2013

利用神经字符嵌入提高命名实体识别

本文介绍了一种基于 CharWNN 深度神经网络的自适应特征命名实体识别系统，使用自动学习特征实现多语种 NER 任务，证明了字符嵌入在 NER 中的有效性。试验结果表明，CharWNN 的性能优于现有最先进的系统。

May, 2015

使用基于字符的词嵌入提高化学疾病关系提取的卷积神经网络性能

本文研究了利用基于字符的词表示提高标准 CNN 关系提取模型性能。研究比较了两种常见神经结构 CNN 和 LSTM，通过在 BioCreative-V CDR 语料库上实验显示，利用基于字符的词表示的模型相对于之前的神经网络方法在提取化学物质和疾病之间的关系时有着最先进的表现。

May, 2018

利用字符和词向量与序列到序列模型进行文本规范化

使用字符级别的注意力和事先训练好的子 / 词级别的嵌入向神经网络提供更多语言学信息，而不需要大量的平行语料库，从而帮助神经网络在标准阿拉伯语语言纠错共享任务数据集上实现最先进的 F1 分数。

Sep, 2018

基于字符级卷积神经网络的文本分类

本文通过构建大规模数据集，比较了基于字级别的卷积神经网络与传统模型如词袋、n-gram 及基于词的卷积神经网络和循环神经网络在文本分类方面的表现。结果表明，基于字级别的卷积神经网络能够达到当前领域最佳或竞争性的结果。

Sep, 2015

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

Twitter 社交网络句子级情感分类的深度神经网络架构

本文介绍了一种新颖的深度学习框架，包括基于词汇表的方法用于句子级别情感标签预测。我们首先应用语义规则，然后使用深度卷积神经网络（DeepCNN）进行字符级嵌入，以增加词级嵌入的信息。然后，双向长短期记忆网络（Bi-LSTM）从词级嵌入中产生句子级特征表示。我们在三个 Twitter 情感分类数据集上评估了我们的方法。实验结果表明，我们的模型可以提高 Twitter 社交网络中句子级情感分析的分类准确性。

Jun, 2017