计算社会语言学综述
使用超级平行语料库,我们提出了一种分析低资源语言的分析方法SuperPivot,该方法在对语态的跨语言分析中表现良好,并对1000多种语言进行了分析
Apr, 2017
探讨了社会语言学的核心问题, 即在全球范围内, 个体的语言变异是受许多外部因素影响的, 并利用法国最大的推特文本数据集和详细的社会经济地图, 研究表明人们的社会经济地位、地理位置和社交网络等因素都对个体网络文本数据中的语言变量有显著影响。
Apr, 2018
该研究介绍了一种新的、大规模和多样化的数据集,这个数据集是从Reddit的多个双语社区的主题帖中精选而来的书面混合语言产品,探讨了至今主要在口语语言背景下讨论的内容和风格、发言者的熟练程度等问题是否也能适用于书面语混合,该数据集可以进一步促进一系列研究和实际活动。
Aug, 2019
通过使用传统的分类器探测和最小描述长度探测技术,我们研究了不同的单GPU预训练语言模型对多个英文数据集的社会人口知识。结果表明,PLMs确实编码了这些社会人口学方面的知识,并且在一些测试的PLMs的层之间分散。我们进一步进行了多语言分析,并调查了补充培训的影响,以进一步探讨在何种程度,何处以及何种数量的预训练数据的情况下编码知识。我们的总体结果表明,社会人口知识仍然是NLP领域的一大挑战。
Nov, 2022
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论C-S结构和功能模式的概述。 此外,作者还讨论了如何使大规模语言模型失败以代表各种C-S类型,以及如何缺乏跨多语言情况和C-S类型导致缺乏强大的评估基准以及覆盖C-S sociolinguistic方面的端到端系统。
Jan, 2023
人们的社会经济背景和他们使用标准语言形式相关联,在各种社会语言学研究中已有证明。然而,从定量的角度来看,不同社会经济阶层之间的混合可能会对这些相关性产生影响,而这方面的研究相对较少。本研究利用地理标记的推特和可转移的计算方法,在英格兰和威尔士的七千个行政区域上大规模地绘制非标准英语的偏离,与高分辨率的收入地图结合,为家庭位置用户分配一个代理社会经济指标。令人惊讶的是,在八个大都市区域,我们发现一个一致的模式,即不同社会经济阶层混合得越多,他们离标准语法的频率和收入的相互依赖性越小。此外,我们提出了一个基于代理人的语言多样性采纳模型,对产生数据中所观察到的现象提供了解释。
Jul, 2023
通过两个大规模案例研究验证了一种方法,用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域,在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展,并揭示了即使在语言和文化上相近的社区内也存在着多样性的程度。
Aug, 2023
大型语言模型 (LLMs) 的语言能力令人印象深刻,但在对其能力进行系统研究方面尚有较少的探讨。本研究通过对四种不同类型的语言 (英语、德语、泰米尔语和土耳其语) 进行首次严格分析 ChatGPT 的形态能力,发现 ChatGPT 在各语言中的性能远低于专门构建的系统,尤其在英语中表现不佳。总的来说,基于形态学的研究结果对 ChatGPT 的语言能力提出了新的看法,并暗示自称具有类人语言技能的说法为时尚早和误导性。
Oct, 2023
在自然语言处理技术中,虽然已经研究了年龄和性别等方面与语言产生之间的关系,但至今较少研究 社会经济阶级等因素。本研究通过对现有自然语言处理文献进行调查,发现只有20篇论文提及社会经济阶级,并且大多数论文仅限于收集注释者人口统计信息,而未深入研究该阶级。鉴于此项研究空白,我们提供了一个可在自然语言处理研究中操作的社会经济阶级定义,并主张在今后的语言技术中应包含社会经济阶级。
Mar, 2024
本文介绍了语言建模的社会语言学视角,论述了大规模语言模型本质上是语言的各种变体,并探讨了该视角如何在语言建模的开发和应用中发挥作用。我们首先提出了社会语言学中对语言变体的概念的技术定义,然后讨论了这一视角如何帮助解决语言建模中的五个基本挑战:社会偏见、领域适应、对齐、语言变化和规模。最终,我们认为为了最大程度地提高大规模语言模型的性能和社会价值,需要精确定义和编制能够准确代表正在建模的特定语言变体的训练语料库。
Jul, 2024