不同空间、时间和语法尺度下的语言统计学
该研究介绍了一种对时间变化中词汇排名进行测量的 “排名多样性” 分布,并通过对六种欧洲语言的 1800 年至今的书籍进行实证研究,发现其呈现出普遍的对数正态分布。研究者们提出了一种高斯随机漫步模型来解释这些单词在时间中的排名变化,这些变化可以理解为排名的随机波动,其中变化的大小取决于其本身的排名,并发现这种分布的核大小在所有研究的语言中都相似。
May, 2015
本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析,发现单词使用频率的分布有两个不同的尺度,且随着语料库的增大,新词的需求呈减少趋势,这种 ' 冷却模式 ' 成为第三个动态的统计规律。
Dec, 2012
该研究描述了在线空间(即社交媒体语言数据)和真实世界空间(即新西兰的分行政区域)的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标,并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明,有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化,但需要进一步研究来了解社交媒体如何代表真实世界行为。
Aug, 2023
探讨了社会语言学的核心问题,即在全球范围内,个体的语言变异是受许多外部因素影响的,并利用法国最大的推特文本数据集和详细的社会经济地图,研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。
Apr, 2018
本文对 Instagram 上分享的 hashtag 进行了首次大规模实证分析,揭示了从时空、语义和社会维度出发的一系列发现,其中包括时序模式可划分为四个不同群集、语义位移较大的 hashtag 有不可忽略的比例、用户分享较均匀的 hashtag 不易语义位移。最后,作者提出了一个双向图嵌入模型以总结用户的 hashtag 概要,并基于这些概要进行好友预测,证明 hashtag 具有强大的社交信号。
May, 2019
本文分析了基于句法表示的方言分类器在空间和时间上的稳定程度,并构建了一个测试集,评估了 12 种英语方言在 3 年内随时间变化的分类准确性和语法变化速率。通过在语用建构语法范式(CxG)中制定的句法表示,可以识别在时间和空间上发生语法变化的地区。本文的主要贡献在于表明严格评估方言分类模型可用于发现空间上的变异和时间上的变化。
Sep, 2022
该研究介绍了一种新的计算技术,用于检测和分析语言中的地理变异,并使用统计学方法识别特定于地区的显著差异。通过神经语言模型学习单词表示,以捕捉地理区域内的不同语义,该方法是第一种明确考虑偶然变异的方法,同时检测单词含义区域变异。研究使用两个大规模在线数据集进行验证,揭示了多个地理分辨率级别的语言变化的有趣方面。最后,使用该模型,我们提出了一种语言语义相似度的度量标准,并发现在 100 年的时间里,在语义层面上,英式英语和美式英语的差异在缩小。
Oct, 2015
提出了一种新的计算方法,用于跟踪和检测单词的语义和用法中的统计显着语言转变,并对一定时间内的单词用法进行了分析,最终使用深度人工神经网络模型,构建了时间序列,使用其跟踪了语言变化趋势。
Nov, 2014
通过分析不同社会人群的评论数据,本研究旨在了解空间在线社交媒体评论数据中的语言和社会人口特征,包括英语语言风格、情感表达和词汇多样性。研究发现,这些特征在有效区分不同群体方面具有显著效果,其中使用 n-gram 词汇特征和基于 Transformer 模型的分类器表现最佳,准确率超过 95%,宏观 F1 分数超过 0.96。该研究的发现为进一步研究社交媒体平台上文本内容的人口模式提供了有价值的指导。
Nov, 2023
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
Mar, 2024