计算社会语言学综述

Aug, 2015

Computational Sociolinguistics: A Survey

Dong Nguyen, A. Seza Doğruöz, Carolyn P. Rosé, Franciska de Jong

TL;DR本篇文章综述了“计算社会语言学”这一兴起的领域，介绍了计算语言学在社会语言学主题方面的研究，探讨了语言与社会认同、社交互动中的语言使用以及多语交际等话题。文章还着重阐述了计算语言学和社会语言学两个研究领域的协同潜力，讨论了开放挑战，并希望进一步加强两个领域之间的合作。

Abstract

Language is a social phenomenon and inherent to its social nature is that it is constantly changing. Recently, a surge of interest can be observed within the computational linguistics (CL) community in the social dimension of language. In this article we present a survey of the emerging field of "→

发现论文，激发创造

过去，现在，未来：1000种语言时态类型的计算机研究

使用超级平行语料库，我们提出了一种分析低资源语言的分析方法SuperPivot，该方法在对语态的跨语言分析中表现良好，并对1000多种语言进行了分析

Apr, 2017

推特语言模式的社会经济依赖性：多元分析

探讨了社会语言学的核心问题, 即在全球范围内, 个体的语言变异是受许多外部因素影响的, 并利用法国最大的推特文本数据集和详细的社会经济地图, 研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。

Apr, 2018

CodeSwitch-Reddit: 在线讨论论坛中多语言书写话语的探索

该研究介绍了一种新的、大规模和多样化的数据集，这个数据集是从Reddit的多个双语社区的主题帖中精选而来的书面混合语言产品，探讨了至今主要在口语语言背景下讨论的内容和风格、发言者的熟练程度等问题是否也能适用于书面语混合，该数据集可以进一步促进一系列研究和实际活动。

Aug, 2019

SocioProbe：语言模型学习社会人口统计信息的内容、时间和地点

通过使用传统的分类器探测和最小描述长度探测技术，我们研究了不同的单GPU预训练语言模型对多个英文数据集的社会人口知识。结果表明，PLMs确实编码了这些社会人口学方面的知识，并且在一些测试的PLMs的层之间分散。我们进一步进行了多语言分析，并调查了补充培训的影响，以进一步探讨在何种程度，何处以及何种数量的预训练数据的情况下编码知识。我们的总体结果表明，社会人口知识仍然是NLP领域的一大挑战。

Nov, 2022

混码语调查：语言技术的语言和社会观点

本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。作者提供代码交换（C-S）的调查，涵盖了语言学文献中的关键问题，并从欧洲和印度等高度多语言区域的文献中着重讨论C-S结构和功能模式的概述。此外，作者还讨论了如何使大规模语言模型失败以代表各种C-S类型，以及如何缺乏跨多语言情况和C-S类型导致缺乏强大的评估基准以及覆盖C-S sociolinguistic方面的端到端系统。

Jan, 2023

方言交融：社会经济混合对语言使用的影响

人们的社会经济背景和他们使用标准语言形式相关联，在各种社会语言学研究中已有证明。然而，从定量的角度来看，不同社会经济阶层之间的混合可能会对这些相关性产生影响，而这方面的研究相对较少。本研究利用地理标记的推特和可转移的计算方法，在英格兰和威尔士的七千个行政区域上大规模地绘制非标准英语的偏离，与高分辨率的收入地图结合，为家庭位置用户分配一个代理社会经济指标。令人惊讶的是，在八个大都市区域，我们发现一个一致的模式，即不同社会经济阶层混合得越多，他们离标准语法的频率和收入的相互依赖性越小。此外，我们提出了一个基于代理人的语言多样性采纳模型，对产生数据中所观察到的现象提供了解释。

Jul, 2023

跨语言和方言中的亲属词汇多样性

通过两个大规模案例研究验证了一种方法，用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域，在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展，并揭示了即使在语言和文化上相近的社区内也存在着多样性的程度。

Aug, 2023

一个对于大型语言模型形态学能力的多语言调查：计算ChatGPT中Wugs的错误

大型语言模型 (LLMs) 的语言能力令人印象深刻，但在对其能力进行系统研究方面尚有较少的探讨。本研究通过对四种不同类型的语言 (英语、德语、泰米尔语和土耳其语) 进行首次严格分析 ChatGPT 的形态能力，发现 ChatGPT 在各语言中的性能远低于专门构建的系统，尤其在英语中表现不佳。总的来说，基于形态学的研究结果对 ChatGPT 的语言能力提出了新的看法，并暗示自称具有类人语言技能的说法为时尚早和误导性。

Oct, 2023

贫穷的语言技术：NLP中的社会（阶级）缺失

在自然语言处理技术中，虽然已经研究了年龄和性别等方面与语言产生之间的关系，但至今较少研究社会经济阶级等因素。本研究通过对现有自然语言处理文献进行调查，发现只有20篇论文提及社会经济阶级，并且大多数论文仅限于收集注释者人口统计信息，而未深入研究该阶级。鉴于此项研究空白，我们提供了一个可在自然语言处理研究中操作的社会经济阶级定义，并主张在今后的语言技术中应包含社会经济阶级。

Mar, 2024

语言建模的社会语言学基础

本文介绍了语言建模的社会语言学视角，论述了大规模语言模型本质上是语言的各种变体，并探讨了该视角如何在语言建模的开发和应用中发挥作用。我们首先提出了社会语言学中对语言变体的概念的技术定义，然后讨论了这一视角如何帮助解决语言建模中的五个基本挑战：社会偏见、领域适应、对齐、语言变化和规模。最终，我们认为为了最大程度地提高大规模语言模型的性能和社会价值，需要精确定义和编制能够准确代表正在建模的特定语言变体的训练语料库。

Jul, 2024