基于 Twitter 的众包方言表征

Jul, 2014

Crowdsourcing Dialect Characterization through Twitter

Bruno Gonçalves, David Sánchez

TL;DR使用地理标记微博数据集对西班牙语言的地区变体进行了大规模分析，发现该语言分为两个超级方言，包括城市语言和更具区域特色的农村和小城镇语言的不同形式。

Abstract

We perform a large-scale analysis of language diatopic variation using geotagged microblogging datasets. By collecting all Twitter messages written in Spanish over more than two years, we build a corpus from which a carefully selected list of concepts allows us to characterize Spanish

spanish language geotagged microblogging dialectology macroregions regional variations

发现论文，激发创造

推特语言模式的社会经济依赖性：多元分析

探讨了社会语言学的核心问题，即在全球范围内，个体的语言变异是受许多外部因素影响的，并利用法国最大的推特文本数据集和详细的社会经济地图，研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。

Apr, 2018

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

社交媒体中的词汇变化扩散

通过分析 107 百万条推特信息，我们发现计算机媒介通信正在驱动书面语言的根本变革，语言演化并不使得美国英语变得一致，而是重现了口语中现有的毛病。

Oct, 2012

Arap-Tweet：一个多方言 Twitter 语料库，用于性别、年龄和语言变体识别

本文介绍了 Arap-Tweet，这是一个涵盖阿拉伯世界 11 个地区和 16 个国家方言变体的大规模、多方言 Tweets 语料库，其中包括针对年龄、性别和方言变体的注释，并讨论了语料库的数据集合和标注方法，以及为阿拉伯语开发作者分析工具和 NLP 工具提供帮助的重要性。

Aug, 2018

通过社交媒体的词汇分析绘制美国文化区域地图

本文提出一种基于自动分析社交媒体上大规模数据集的方法，以推断出文化地区，并发现了在美国社交媒体中明显的文化地区和定义它们的讨论主题。

Aug, 2022

Twitter 中的地理位置和语言识别

本文研究了三种自动语言识别方法与 Twitter 用户界面语言设置和语言人工编码之间的可靠性，比较了用户输入的个人资料位置与实际发推地点之间的不同，证明了用户生成的资料位置无法用作推特信息发布的有用代理。

Aug, 2013

利用地理定位的 Twitter 提及信息获取虚假信息洞察

本文提出了一种基于地理空间分类和基于嵌入的语言建模组合的两阶段方法，用于分析 Twitter 上与虚假信息相关的社交媒体数据，特别是针对英语、法语和西班牙语等三种欧洲语言，通过比较分析证明了分类方法的有效性，并突出了虚假信息相关媒体的地理、时间和语言差异。

Aug, 2021

比较社交媒体语言数据和人口普查数据在次国家地理区域上的语言多样性测量

该研究描述了在线空间（即社交媒体语言数据）和真实世界空间（即新西兰的分行政区域）的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标，并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明，有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化，但需要进一步研究来了解社交媒体如何代表真实世界行为。

Aug, 2023

借用还是语码切换？在语言混合中注释更精细的差异

本文介绍了一个新的 Twitter 数据语料库，其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文，旨在清晰定义代码切换和借入之间的界限，并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换，最终给出了基于 Transformer 模型的语言模型的基准得分。

Jun, 2022

社交媒体中的人口方言差异：非裔美国英语案例研究

本文研究表明，虽然方言语言在社交媒体上越来越普遍，但是开发自然语言处理工具的资源很少。本文以推特上的非裔美国英语为案例研究方言语言的实用性。文章提出了一种基于地理位置信息的远距离语言学习模型来识别 AAEL（African-American English like language），并验证了这种语言遵循已知的非裔美国英语语言现象。此外，文章对现有的语言识别和依赖解析工具在 AAEL 文本上的质量进行了分析，证明它们在处理这样的文本时比白人说话者的文本表现差。作者还提供了一种语言识别的整合分类器，消除了这种差异，并发布了一个包含 AAEL 类似语言的新推文语料库。

Aug, 2016