社交媒体中的姓名嵌入

WWWMay, 2019

The Secret Lives of Names? Name Embeddings from Social Media

Junting Ye, Steven Skiena

TL;DR本文使用公共 Twitter 数据研究人名嵌入学习，证明其在建立人名嵌入模型方面的有效性，并发现人名嵌入进一步改进了以往的人口统计特征在寿命建模中的表现，嵌入中可能包含了细粒度群组因素，这一发现将有助于增强其他研究领域的预测能力。

Abstract

Your name tells a lot about you: your gender, ethnicity and so on. It has been shown that name embeddings are more effective in representi

发现论文，激发创造

通过分析互联网公司的 5700 万个联系人列表，我们可以设计一个涵盖 90% 以上世界人口的 39 个代表细粒度国籍分类器，并将其应用于 Twitter 名人的追随者，演示了不同族裔追随者之间的鲜明差异。

Aug, 2017

本文研究了使用词嵌入来识别 Twitter 上的帮派成员，实验结果表明预训练的词嵌入可以提高机器学习算法在社交媒体上训练的准确性。

Oct, 2016

通过多视角表示学习，结合用户的社交和文本信息，构建相关用户的上下文表示，以理解他们的生活方式选择，该文提出了一种联合嵌入模型并将其应用于推文分析。在实验中，模型在 Yoga 和 Keto 饮食领域中均取得了较好的表现。

Apr, 2021

本文提出了一个统一动态嵌入模型，它能学习属性特定的单词嵌入，在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现，动态嵌入模型与独立向量空间模型相比，在表示语言偏见方面更具优越性或更劣。

Apr, 2019

本研究针对 Twitter 用户的情况，使用低维向量表示的图形嵌入技术来提取用户的社交网络信息，并用此信息预测 Twitter 用户的职业阶层和收入水平，结果显示该方法优于现有的方法，并且将社交网络和语言信息相结合可以进一步提高预测结果。

Apr, 2018

本文通过分别使用推特数据、通用数据和两种数据的结合，提出了十种单词嵌入数据集，并且演示了如何将这些数据集应用于推特情感分析和推特主题分类等 NLP 任务。

Aug, 2017

研究提出了一种新的形式的个性化词嵌入，使用基于用户的完整或部分人口统计信息的构成导出，展示了人口统计学感知的词表示在两个英语任务（语言建模和词语关联）上优于通用词表示，并探讨了可用属性的数量和它们的相对有效性之间的权衡，并讨论了使用它们的伦理影响。

Oct, 2020

我们采用神经网络学习个人的多维表示，结合社交媒体上的丰富语言和网络证据，从而综合推断人们在线的潜在属性，包括性别、职业、位置和友谊，并在推特上实现了分类、学习表示和预测任务的提高性能。

Oct, 2015

本文介绍了 Twitter 在处理海量信息时的一种解决方案，通过采用嵌入模型，实现了同时考虑模型效率与数据分布的算法更新，从而降低因语言变化带来的协变量漂移、减少冗余，并极大地提高了团队建模的效率。

Sep, 2018

该研究回顾了最近在社交媒体用户的表征学习领域的进展，并提供了从异构用户数据（例如，将社交媒体文本与图像相结合来学习统一用户表征）中学习统一用户嵌入的典型方法，该技术对于创建高性能的基于社交媒体的人类特征和行为模型至关重要。

Jun, 2019