Sep, 2022
全球范围内数字语言支持评估
Assessing Digital Language Support on a Global Scale
Gary F. Simons, Abbey L. Thomas, Chad K. White
TL;DR该研究开发了一种基于 Mokken 比例分析的自动化方法,用于评估 ISO 639 认可的每种语言在数字语言支持方面的表现,并在全球范围内监测。
Abstract
The users of endangered languages struggle to thrive in a digitally-mediated
world. We have developed an automated method for assessing how well every
language recognized by ISO 639 is faring in terms of
发现论文,激发创造
环游世界 60 词:用于在线研究的生成性词汇测试
通过 Wikipedia 生成词汇测试,评估参与者的母语能力,可以在不同语言文化背景下了解文化、认知和语言的视角,通过六项行为实验测试结果表明,这个测试可以区分母语相近的语言,测试结果与现有测试成绩和个人报告结果有很强的相关性。
Feb, 2023
可访问的多语言文本分析的机器翻译
本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析,结果表明这种方法在情感分析,主题分析和词嵌入等分析方法上,与使用源语言进行分析的结果相当,机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。
Jan, 2023
透明比较多语言自然语言处理数据集中的语言多样性的一种度量
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
Mar, 2024
比较社交媒体语言数据和人口普查数据在次国家地理区域上的语言多样性测量
该研究描述了在线空间(即社交媒体语言数据)和真实世界空间(即新西兰的分行政区域)的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标,并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明,有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化,但需要进一步研究来了解社交媒体如何代表真实世界行为。
Aug, 2023
一个用于评分维基百科可读性的开放多语言系统
通过构建多语言模型评价维基百科文章的可读性,作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率,并且提供了维基百科的可读性状况的第一个概述。
Jun, 2024
地理和背景多样化数据源文献:BigScience 语言数据和资源目录
本研究介绍了一个大型数据收集项目的方法论,强调了文档记录和以人为中心的方法,通过在线目录和公共黑客马拉松活动进行元数据的收集,以解决大型语言模型数据收集面临的难题,研究结果分析了所得到的资源元数据分布情况,并总结了在此项目中的经验教训。
Jan, 2022