多语言维基百科研究的考虑因素

ICLRApr, 2022

Considerations for Multilingual Wikipedia Research

Isaac Johnson, Emily Lescak

TL;DR本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Abstract

English wikipedia has long been an important data source for much research and natural language machine learning modeling. The growth of n

wikipedia multilingual multimodal data research

发现论文，激发创造

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

全球为何阅读维基百科：超越英语使用者

本文通过在 14 种不同语言版本的维基百科上进行大规模的调查和用户行为跟踪分析，比较研究读者对维基百科的使用情况和行为习惯，发现不同语言版本的维基百科普遍存在一些共同但也有实质性的差异，其中某些使用情况与特定的行为模式密切相关，并且特定的维基百科使用情况更常见于一些具有特定社会经济特征的国家。这些发现对于维基百科的编辑和其他 Web 技术的开发具有重要意义，有助于更好地了解读者的动机和行为。

Dec, 2018

利用推荐技术跨语言扩展维基百科

本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法，通过识别缺失的文章，根据其重要性进行排序，并基于编辑人员的兴趣推荐给他们，经验证，个性化推荐可以将编辑人员的参与度提高两倍，推荐文章被创作的概率提高 3.2 倍，且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia，同时不会对其质量产生影响。

Apr, 2016

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

印度语言的多语言偏见检测和缓解

缺乏多元观点导致维基百科内容中的中立偏见，从而使数百万全球读者接触到潜在的不准确信息。因此，中立偏见的检测和缓解是一个关键问题。我们为此提供了两个大型数据集 mWikiBias 和 mWNC，分别涵盖 8 种语言，用于中立偏见的检测和缓解任务。接下来，我们通过将检测建模为二元分类问题和将缓解建模为样式转换问题，研究了流行的多语言基于 Transformer 的模型在这两个任务中的有效性。我们将代码和数据公开提供。

Dec, 2023

分析跨语种维基百科文章对的时间演变

研究称，维基百科不同语言版本中表示实体或主题的文章独立演变，会产生不同观点的反映，需要对信息如何跨越维基百科语言版本进行分析，以支持质量控制。为了便于分析，研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面，可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化，并在特定时间点执行文章快照的详细视觉比较。

Feb, 2017

多语言多模态：数据集、技术、挑战和机遇的分类调查

此论文旨在研究多模态多语言的统一模型，探讨其任务，数据集及方法类别，分析模态与语言之间的相互作用以及模型的优势和劣势，总结该领域的高级趋势并提出挑战和未来研究方向。

Oct, 2022

跨越英语的语言模型公平性：现存问题与挑战

本研究调查了多语言和非英文环境下公平性问题，并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为，在构建公平性数据集方面，世界上众多多样化的文化和语言使得实现全面覆盖变得不可行，因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法，以便在不同的语言和文化间实现扩展。

Feb, 2023

科学文献是多语种的，我们的模型也应如此

英语一直被认为是科学研究的 $ extit {lingua franca}$，然而，该研究表明文献主要以多种语言出现，因此建议当前的模型和基准应该体现这种语言多样性，以提高在非英语文献上的表现。

Mar, 2024

本体论中的多语言现象及其意义综述

本文回顾了多语义 Web 中的语言多样性建模选项，通过对 9 种主要方法进行比较，从 BioPortal 和 LOV 存储库中提取了可访问的本体，并评估了 7 个相关本体编辑器对于管理多语言本体的工具支持。

Oct, 2022