改进推特的分布式表示 —— 现在和未来
本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务,并表明先进的模型不一定在 tweets 上表现最佳,需要在这一领域进行更多探索。
Dec, 2020
使用多种模型,比较了 9 个 tweet 表征表示在 8 个文本和 5 个社交元素属性上的表现,Bi-directional LSTM(BLSTM)和 Skip-Thought Vectors 最能编码文本和社交属性,在低资源情况下表现不错的是 FastText。
Apr, 2017
本文系统地比较了学习分布式短语或句子表示方法的模型,并发现最佳方法取决于预期应用程序,对于 supervised 系统,更深层次、更复杂的模型更具优势,但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标,旨在优化训练时间、领域可移植性和性能之间的平衡。
Feb, 2016
本文提出了一种新颖的表征学习模型,通过系统性地利用用户 Twitter 时间轴上的文本 “上下文”,并考虑用户背景知识如写作风格和写作主题总结,从而准确地计算推文的语义表示,并通过实验证明,在预测用户配偶、教育和工作等人物属性时,该模型优于现有最先进模型,分别提高了 19.66%、2.27% 和 2.22%。
Dec, 2016
本研究对推特文本表示方法的核心属性进行评估和分析,旨在打开社交媒体文章向量表示的黑匣子,以便更好地理解这些方法为文本编码的方式以及其表现的能力,以有助于社交媒体信息处理的应用。
Nov, 2016
本论文探讨了利用多个训练目标来学习句子表示的多任务学习框架,提出了一种有效实现的方法,通过多项实验得出该方法可以在转移学习和低资源环境中大幅度提高语言处理的效率。
Mar, 2018
该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
该研究回顾了最近在社交媒体用户的表征学习领域的进展,并提供了从异构用户数据(例如,将社交媒体文本与图像相结合来学习统一用户表征)中学习统一用户嵌入的典型方法,该技术对于创建高性能的基于社交媒体的人类特征和行为模型至关重要。
Jun, 2019
本研究提出了一个基于字符组合的 tweet2vec 模型,通过学习字符序列中复杂的非局部依赖关系,找到整个推文的向量表示,相比基于单词的方法在处理社交媒体文本时表现更佳。
May, 2016