改进推特的分布式表示 —— 现在和未来

ACLJun, 2017

改进推特的分布式表示 —— 现在和未来

Improving Distributed Representations of Tweets - Present and Future

Ganesh J

TL;DR通过整理有关推特的无监督学习模型，以提高其表现，进而提高情感分析、主题预测等商业应用的质量。

Abstract

Unsupervised representation learning for tweets is an important research field which helps in solving several business applications such as sentiment analysis, hashtag prediction, paraphrase detection and microblog ranking. A good tweet representation learning model must handle the idi

unsupervised learning tweets sentiment analysis representation models language processing

发现论文，激发创造

对推特数据无监督文本表示方法的实证调查

本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务，并表明先进的模型不一定在 tweets 上表现最佳，需要在这一领域进行更多探索。

Dec, 2020

语义推文表示的解释

使用多种模型，比较了 9 个 tweet 表征表示在 8 个文本和 5 个社交元素属性上的表现，Bi-directional LSTM（BLSTM）和 Skip-Thought Vectors 最能编码文本和社交属性，在低资源情况下表现不错的是 FastText。

Apr, 2017

从未标注的数据中学习句子的分布式表示

本文系统地比较了学习分布式短语或句子表示方法的模型，并发现最佳方法取决于预期应用程序，对于 supervised 系统，更深层次、更复杂的模型更具优势，但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标，旨在优化训练时间、领域可移植性和性能之间的平衡。

Feb, 2016

利用时间和用户上下文改进推文表达

本文提出了一种新颖的表征学习模型，通过系统性地利用用户 Twitter 时间轴上的文本 “上下文”，并考虑用户背景知识如写作风格和写作主题总结，从而准确地计算推文的语义表示，并通过实验证明，在预测用户配偶、教育和工作等人物属性时，该模型优于现有最先进模型，分别提高了 19.66%、2.27% 和 2.22%。

Dec, 2016

通过元属性预测任务解释推文表示中的句法和社交元素

本研究对推特文本表示方法的核心属性进行评估和分析，旨在打开社交媒体文章向量表示的黑匣子，以便更好地理解这些方法为文本编码的方式以及其表现的能力，以有助于社交媒体信息处理的应用。

Nov, 2016

通过大规模多任务学习学习通用分布式句子表示

本论文探讨了利用多个训练目标来学习句子表示的多任务学习框架，提出了一种有效实现的方法，通过多项实验得出该方法可以在转移学习和低资源环境中大幅度提高语言处理的效率。

Mar, 2018

基于加权词向量聚合的极短文本表示学习

该研究构建了一种基于语义词嵌入和频率信息的方法，用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程，实现得到低维度的文本表示，实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。

Jul, 2016

基于社交媒体的用户嵌入：文献综述

该研究回顾了最近在社交媒体用户的表征学习领域的进展，并提供了从异构用户数据（例如，将社交媒体文本与图像相结合来学习统一用户表征）中学习统一用户嵌入的典型方法，该技术对于创建高性能的基于社交媒体的人类特征和行为模型至关重要。

Jun, 2019

Twitter 主题分类

本文针对社交媒体中讨论的各种话题，通过推文主题分类研究，提供两个相关数据集用于评估推文分类模型，并在语言模型上进行量化评估和分析。

Sep, 2022

Tweet2Vec：社交媒体基于字符的分布式表示

本研究提出了一个基于字符组合的 tweet2vec 模型，通过学习字符序列中复杂的非局部依赖关系，找到整个推文的向量表示，相比基于单词的方法在处理社交媒体文本时表现更佳。

May, 2016