Twitter-Demographer：基于流的工具来丰富 Twitter 数据

Jan, 2022

Twitter-Demographer：基于流的工具来丰富 Twitter 数据

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data

Federico Bianchi, Vincenzo Cutrona, Dirk Hovy

TL;DR本文描述了一种名为 Twitter-Demographer 的工具，该工具旨在为 NLP 从业者和社会科学家提供聚合信息，促进再现性，并为伪匿名提供算法隐私保护措施。

Abstract

twitter data have become essential to natural language processing (NLP) and social science research, driving various scientific discoverie

twitter data natural language processing social science research twitter-demographer algorithmic privacy-by-design measures

发现论文，激发创造

利用嘈杂的自报告预测 Twitter 用户人口统计信息

本文提出了一种基于识别 Twitter 个人资料描述自我报告种族和族裔的方法，以解决目前原有数据集较小、不准确或未覆盖美国四个最常见的种族和族裔群体的问题，有效提供了一个可复现的大规模培训种族和族裔判别系统的资源。

May, 2020

Twitter 上位置推理技术调研

本文回顾了 Twitter 用户位置推断技术的发展历程，探讨了地理位置信息获取和算法优化对准确性提升的积极影响，并强调了其在社交媒体、灾害监测、市场趋势研究等领域的广泛应用。

Jan, 2017

选举相关推文自动检测和分类

本文介绍了一种基于深度神经网络的技术框架，用于在 Twitter 上连续纵向地识别和分析选举相关的对话，其模型可以将选举相关的推文检测的 F 分数为 0.92，并将这些推文分类为 22 个主题，其 F 分数为 0.90。

May, 2016

基于用户层级聚合的词汇为基础的人口预测的显著性益处

该论文介绍了一个利用 Twitter 用户聚合的方法来构建社区级别模型，可以有效的准确预测人口相关，包括人口统计、健康和心理预测等四个不同领域的结果（例如，可以将用于预测收入中位数的皮尔逊相关系数从 0.73 提升到 0.82）。

Aug, 2018

Traffic-Twitter Transformer: 基于自然语言处理的交通预测框架

本文旨在通过将社交媒体功能纳入考虑范围，以提供一个灵活全面的框架，在交通强度和 Twitter 数据强度之间建立相关性，并将两个时间序列数据馈入我们的 Traffic-Twitter Transformer，为长期交通预测提供自然语言表示。实验结果表明，这种纳入 NLP 的社交感知框架能够成为交通机构网络广泛预测和管理的有价值的实现。

Jun, 2022

2021 墨西哥立法选举基于推特的模型设计与分析

本文研究了利用推特数据进行预测和分析社会行为的可行性，使用具有地理属性的推特数据进行 2021 年墨西哥议会选举建模，结果表明该方法比传统民意调查更准确和精确。同时，该推特数据与官方普查数据呈正相关，表明在线数据可以提供准确的离线行为表示。

Jan, 2023

使用地标推特预测高分辨率地理位置的人口数据

提出了一种基于地理位置标记推特的计算方法，能够以细微的地理分辨率、灵活的地理边界与不同时间间隔推测人口统计学数据，通过对性别、种族 / 族裔等因素的预测，超越了传统方法的平均相关性。

Jan, 2017

Twitmo: 用于 R 的 Twitter 数据主题建模和可视化包

Twitmo 是一个创新的工具包，可用于收集、预处理、分析和可视化地理标记的 Twitter 数据，以进行主题建模和公共话语分析。

Jul, 2022

推特洞察：从推特提取时间洞察的可视化平台

使用推特获得的大量时间序列数据，通过词嵌入技术和专门微调的语言模型进行后处理，捕捉了过去五年中 n-gram 频率、相似性、情感和主题分布的变化。构建在该数据之上的界面可以进行时间分析，用于检测和描述意义的转变，包括与趋势度量相补充的情感和主题的时间关联信息。我们提供了一个在线演示用于方便实验，还分享了代码和底层的聚合数据供以后的工作使用。本文还讨论了基于我们平台的三个案例研究，展示了它在时间语言分析方面的潜力。

Aug, 2023

利用总变差最小化对一亿个 Twitter 账户进行地理标记

本研究提供了一种能够在公开可见的 Twitter 数据的基础上，准确地确定 Twitter 用户位置的方法。通过优化社交网络中的用户位置并检视他们好友的位置，本文提供了一种高可扩展性和可分布式的算法，并展示了如何利用用户的 ego 网络的地理离散度来作为准确性度量的参数。本文的实验结果表明，在 101,846,236 位 Twitter 用户的位置中，其中 80% 以上的公开推文地理标记的中位误差为 6.38 公里。

Apr, 2014