本研究对推特文本表示方法的核心属性进行评估和分析,旨在打开社交媒体文章向量表示的黑匣子,以便更好地理解这些方法为文本编码的方式以及其表现的能力,以有助于社交媒体信息处理的应用。
Nov, 2016
该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
通过整理有关推特的无监督学习模型,以提高其表现,进而提高情感分析、主题预测等商业应用的质量。
Jun, 2017
本研究提出了一个基于字符组合的 tweet2vec 模型,通过学习字符序列中复杂的非局部依赖关系,找到整个推文的向量表示,相比基于单词的方法在处理社交媒体文本时表现更佳。
May, 2016
本文提出了一种新颖的表征学习模型,通过系统性地利用用户 Twitter 时间轴上的文本 “上下文”,并考虑用户背景知识如写作风格和写作主题总结,从而准确地计算推文的语义表示,并通过实验证明,在预测用户配偶、教育和工作等人物属性时,该模型优于现有最先进模型,分别提高了 19.66%、2.27% 和 2.22%。
Dec, 2016
Tweet2Vec 是一种新方法,用于通过字符级别的 CNN-LSTM 编码器 - 解码器生成推文的通用向量表示形式,可应用于推文的各种分类任务,并且该方法也适用于其他语言。
本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务,并表明先进的模型不一定在 tweets 上表现最佳,需要在这一领域进行更多探索。
Dec, 2020
本文介绍了一种新型的深层上下文词表示方法,既能够建模单词用法的复杂特征 (如句法和语义),又能够建模这些用法在语言上下文中的变化 (即建模多义性),这些表示可以轻松地添加到现有模型中,并且可以显著提高 NLP 问题的性能。
Feb, 2018
本文通过分别使用推特数据、通用数据和两种数据的结合,提出了十种单词嵌入数据集,并且演示了如何将这些数据集应用于推特情感分析和推特主题分类等 NLP 任务。
Aug, 2017
本文介绍了 Twitter 在处理海量信息时的一种解决方案,通过采用嵌入模型,实现了同时考虑模型效率与数据分布的算法更新,从而降低因语言变化带来的协变量漂移、减少冗余,并极大地提高了团队建模的效率。
Sep, 2018