全球范围内数字语言支持评估

Sep, 2022

Assessing Digital Language Support on a Global Scale

Gary F. Simons, Abbey L. Thomas, Chad K. White

TL;DR该研究开发了一种基于 Mokken 比例分析的自动化方法，用于评估 ISO 639 认可的每种语言在数字语言支持方面的表现，并在全球范围内监测。

Abstract

The users of endangered languages struggle to thrive in a digitally-mediated world. We have developed an automated method for assessing how well every language recognized by ISO 639 is faring in terms of

endangered languages digital language support mokken scale analysis global scale automated method

发现论文，激发创造

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

环游世界 60 词：用于在线研究的生成性词汇测试

通过 Wikipedia 生成词汇测试，评估参与者的母语能力，可以在不同语言文化背景下了解文化、认知和语言的视角，通过六项行为实验测试结果表明，这个测试可以区分母语相近的语言，测试结果与现有测试成绩和个人报告结果有很强的相关性。

Feb, 2023

构建数字语言鸿沟的桥梁

AI 技术中的语言偏见是研究和开发方法论不公正的结果，我们提出了一项新的倡议，旨在通过技术设计和方法论，与当地社区进行眼球级的合作，减少语言偏见。

Jul, 2023

可访问的多语言文本分析的机器翻译

本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析，结果表明这种方法在情感分析，主题分析和词嵌入等分析方法上，与使用源语言进行分析的结果相当，机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。

Jan, 2023

透明比较多语言自然语言处理数据集中的语言多样性的一种度量

提出了一种评估数据集语言多样性的方法，通过比较语言特征集合的 Jaccard 指数来分析，发现大部分流行的多语种数据集中缺乏多种语言类型，特别是 (poly) synthetic languages。

Mar, 2024

比较社交媒体语言数据和人口普查数据在次国家地理区域上的语言多样性测量

该研究描述了在线空间（即社交媒体语言数据）和真实世界空间（即新西兰的分行政区域）的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标，并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明，有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化，但需要进一步研究来了解社交媒体如何代表真实世界行为。

Aug, 2023

众包式多语言语音可听性测试

通过众包评估多语言测试材料和产生音频特性，本研究旨在快速评估其对语音可懂性的影响。

Mar, 2024

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

地理和背景多样化数据源文献：BigScience 语言数据和资源目录

本研究介绍了一个大型数据收集项目的方法论，强调了文档记录和以人为中心的方法，通过在线目录和公共黑客马拉松活动进行元数据的收集，以解决大型语言模型数据收集面临的难题，研究结果分析了所得到的资源元数据分布情况，并总结了在此项目中的经验教训。

Jan, 2022