基于 Twitter 的众包方言表征
探讨了社会语言学的核心问题,即在全球范围内,个体的语言变异是受许多外部因素影响的,并利用法国最大的推特文本数据集和详细的社会经济地图,研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。
Apr, 2018
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024
本文介绍了 Arap-Tweet,这是一个涵盖阿拉伯世界 11 个地区和 16 个国家方言变体的大规模、多方言 Tweets 语料库,其中包括针对年龄、性别和方言变体的注释,并讨论了语料库的数据集合和标注方法,以及为阿拉伯语开发作者分析工具和 NLP 工具提供帮助的重要性。
Aug, 2018
本文研究了三种自动语言识别方法与 Twitter 用户界面语言设置和语言人工编码之间的可靠性,比较了用户输入的个人资料位置与实际发推地点之间的不同,证明了用户生成的资料位置无法用作推特信息发布的有用代理。
Aug, 2013
本文提出了一种基于地理空间分类和基于嵌入的语言建模组合的两阶段方法,用于分析 Twitter 上与虚假信息相关的社交媒体数据,特别是针对英语、法语和西班牙语等三种欧洲语言,通过比较分析证明了分类方法的有效性,并突出了虚假信息相关媒体的地理、时间和语言差异。
Aug, 2021
该研究描述了在线空间(即社交媒体语言数据)和真实世界空间(即新西兰的分行政区域)的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标,并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明,有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化,但需要进一步研究来了解社交媒体如何代表真实世界行为。
Aug, 2023
本文介绍了一个新的 Twitter 数据语料库,其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文,旨在清晰定义代码切换和借入之间的界限,并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换,最终给出了基于 Transformer 模型的语言模型的基准得分。
Jun, 2022
本文研究表明,虽然方言语言在社交媒体上越来越普遍,但是开发自然语言处理工具的资源很少。本文以推特上的非裔美国英语为案例研究方言语言的实用性。文章提出了一种基于地理位置信息的远距离语言学习模型来识别 AAEL(African-American English like language),并验证了这种语言遵循已知的非裔美国英语语言现象。此外,文章对现有的语言识别和依赖解析工具在 AAEL 文本上的质量进行了分析,证明它们在处理这样的文本时比白人说话者的文本表现差。作者还提供了一种语言识别的整合分类器,消除了这种差异,并发布了一个包含 AAEL 类似语言的新推文语料库。
Aug, 2016