不同空间、时间和语法尺度下的语言统计学

Jul, 2022

不同空间、时间和语法尺度下的语言统计学

Language statistics at different spatial, temporal, and grammatical scales

Fernanda Sánchez-Puig, Rogelio Lozano-Aranda, Dante Pérez-Méndez, Ewan Colman, Alfredo J. Morales-Guzmán...

TL;DR采用 Twitter 数据，研究英语和西班牙语的语言统计学，特别是不同尺度的排名多样性以及 Twitter 专属标记的统计学，发现在语法尺度上，即使在不同的尺度、语言和国家值下，排名多样性曲线最相似。结论有助于量化语言统计特征的普遍性及其带来的变化。

Abstract

statistical linguistics has advanced considerably in recent decades as data has become available. This has allowed researchers to study how statistical properties of languages change over time. In this work, we use data from →

statistical linguistics twitter rank diversity grammatical scale language statistics

发现论文，激发创造

计算语言学中的语言排名多样性：通用行为

该研究介绍了一种对时间变化中词汇排名进行测量的 “排名多样性” 分布，并通过对六种欧洲语言的 1800 年至今的书籍进行实证研究，发现其呈现出普遍的对数正态分布。研究者们提出了一种高斯随机漫步模型来解释这些单词在时间中的排名变化，这些变化可以理解为排名的随机波动，其中变化的大小取决于其本身的排名，并发现这种分布的核大小在所有研究的语言中都相似。

May, 2015

语言的增长降低了对新词的需求：一种异速生长的解释

本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析，发现单词使用频率的分布有两个不同的尺度，且随着语料库的增大，新词的需求呈减少趋势，这种 ' 冷却模式 ' 成为第三个动态的统计规律。

Dec, 2012

比较社交媒体语言数据和人口普查数据在次国家地理区域上的语言多样性测量

该研究描述了在线空间（即社交媒体语言数据）和真实世界空间（即新西兰的分行政区域）的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标，并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明，有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化，但需要进一步研究来了解社交媒体如何代表真实世界行为。

Aug, 2023

推特语言模式的社会经济依赖性：多元分析

探讨了社会语言学的核心问题，即在全球范围内，个体的语言变异是受许多外部因素影响的，并利用法国最大的推特文本数据集和详细的社会经济地图，研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。

Apr, 2018

当代语言：Hashtags 的实证分析

本文对 Instagram 上分享的 hashtag 进行了首次大规模实证分析，揭示了从时空、语义和社会维度出发的一系列发现，其中包括时序模式可划分为四个不同群集、语义位移较大的 hashtag 有不可忽略的比例、用户分享较均匀的 hashtag 不易语义位移。最后，作者提出了一个双向图嵌入模型以总结用户的 hashtag 概要，并基于这些概要进行好友预测，证明 hashtag 具有强大的社交信号。

May, 2019

句法方言分类的时空稳定性

本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度，并构建了一个测试集，评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式（CxG）中制定的句法表示，可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。

Sep, 2022

大一新生还是新生？量化互联网语言的地理变化

该研究介绍了一种新的计算技术，用于检测和分析语言中的地理变异，并使用统计学方法识别特定于地区的显著差异。通过神经语言模型学习单词表示，以捕捉地理区域内的不同语义，该方法是第一种明确考虑偶然变异的方法，同时检测单词含义区域变异。研究使用两个大规模在线数据集进行验证，揭示了多个地理分辨率级别的语言变化的有趣方面。最后，使用该模型，我们提出了一种语言语义相似度的度量标准，并发现在 100 年的时间里，在语义层面上，英式英语和美式英语的差异在缩小。

Oct, 2015

语言变化的统计显著检测

提出了一种新的计算方法，用于跟踪和检测单词的语义和用法中的统计显着语言转变，并对一定时间内的单词用法进行了分析，最终使用深度人工神经网络模型，构建了时间序列，使用其跟踪了语言变化趋势。

Nov, 2014

理解人口多样化的空间社交媒体话语中的词汇和情感本体

通过分析不同社会人群的评论数据，本研究旨在了解空间在线社交媒体评论数据中的语言和社会人口特征，包括英语语言风格、情感表达和词汇多样性。研究发现，这些特征在有效区分不同群体方面具有显著效果，其中使用 n-gram 词汇特征和基于 Transformer 模型的分类器表现最佳，准确率超过 95%，宏观 F1 分数超过 0.96。该研究的发现为进一步研究社交媒体平台上文本内容的人口模式提供了有价值的指导。

Nov, 2023

透明比较多语言自然语言处理数据集中的语言多样性的一种度量

提出了一种评估数据集语言多样性的方法，通过比较语言特征集合的 Jaccard 指数来分析，发现大部分流行的多语种数据集中缺乏多种语言类型，特别是 (poly) synthetic languages。

Mar, 2024