Tweet2Vec: 使用字符级 CNN-LSTM 编码器 - 解码器学习推文嵌入

SIGIRJul, 2016

Tweet2Vec: 使用字符级 CNN-LSTM 编码器 - 解码器学习推文嵌入

Tweet2Vec: Learning Tweet Embeddings Using Character-level CNN-LSTM Encoder-Decoder

Soroush Vosoughi, Prashanth Vijayaraghavan, Deb Roy

TL;DRTweet2Vec 是一种新方法，用于通过字符级别的 CNN-LSTM 编码器 - 解码器生成推文的通用向量表示形式，可应用于推文的各种分类任务，并且该方法也适用于其他语言。

Abstract

We present tweet2vec, a novel method for generating general-purpose vector representation of tweets. The model learns tweet embeddings using character-level CNN-LSTM encoder-decoder. We trained our model on 3 million, randomly selected English-→

tweet2vec vector representation tweet semantic similarity tweet sentiment categorization language

发现论文，激发创造

Tweet2Vec：社交媒体基于字符的分布式表示

本研究提出了一个基于字符组合的 tweet2vec 模型，通过学习字符序列中复杂的非局部依赖关系，找到整个推文的向量表示，相比基于单词的方法在处理社交媒体文本时表现更佳。

May, 2016

BB_twtr 在 SemEval-2017 任务 4 中：使用 CNN 和 LSTM 进行 Twitter 情感分析

使用卷积神经网络与长短时记忆网络，我们成功实现了最先进的 Twitter 情感分类器，通过海量无标注数据来预训练词向量，然后使用少量无标注数据通过远程监督来微调嵌入向量，最终在 SemEval-2017 Twitter 数据集上对 CNN 和 LSTM 进行了再次微调，使用了集成学习方法，我们在所有五个英文子任务中均排名第一。

Apr, 2017

基于字符的神经嵌入用于推文聚类

本文探讨了如何运用基于字符的神经网络提高推文聚类的性能，解决了基于词语的模型中词汇膨胀的限制，并实现了对多语言内容的无缝处理。

Mar, 2017

比较 CNN 和 LSTM 字符级嵌入在 BiLSTM-CRF 模型中用于化学和疾病命名实体识别

比较 LSTM 和 CNN 基于字符级别的词嵌入在 BiLSTM-CRF 模型中用于化学和疾病实体识别任务的效果。实验结果表明，使用任意一种字符级别嵌入方式都能使模型达到最先进的性能，但是基于 CNN 的字符级别嵌入模型具有计算性能优势，增加训练时间 25％，而基于 LSTM 的字符级别嵌入模型需要的训练时间则超过两倍。

Aug, 2018

Twitter 社交网络句子级情感分类的深度神经网络架构

本文介绍了一种新颖的深度学习框架，包括基于词汇表的方法用于句子级别情感标签预测。我们首先应用语义规则，然后使用深度卷积神经网络（DeepCNN）进行字符级嵌入，以增加词级嵌入的信息。然后，双向长短期记忆网络（Bi-LSTM）从词级嵌入中产生句子级特征表示。我们在三个 Twitter 情感分类数据集上评估了我们的方法。实验结果表明，我们的模型可以提高 Twitter 社交网络中句子级情感分析的分类准确性。

Jun, 2017

语义推文表示的解释

使用多种模型，比较了 9 个 tweet 表征表示在 8 个文本和 5 个社交元素属性上的表现，Bi-directional LSTM（BLSTM）和 Skip-Thought Vectors 最能编码文本和社交属性，在低资源情况下表现不错的是 FastText。

Apr, 2017

用于危机响应的深度学习和词嵌入的推文分类

本文旨在研究使用不同神经网络和通用与领域特定词嵌入的应用能力，以提高推文分类模型的性能，结果表明 Bi-LSTM 模型使用通用词嵌入（如 GloVe）效果最佳，最高可达 62.04％的 F1 分数。

Mar, 2019

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

从推文和通用数据中学习的词嵌入数据集

本文通过分别使用推特数据、通用数据和两种数据的结合，提出了十种单词嵌入数据集，并且演示了如何将这些数据集应用于推特情感分析和推特主题分类等 NLP 任务。

Aug, 2017

使用 LSTM 进行区域嵌入的监督和半监督文本分类

本研究使用一种基于 LSTM 的区域嵌入方法，结合卷积层提高了基于文本分类任务的效果，并发现在这种任务中，区域嵌入是比单独词嵌入更有效的。

Feb, 2016