多语言维基百科研究的考虑因素
本文通过在 14 种不同语言版本的维基百科上进行大规模的调查和用户行为跟踪分析,比较研究读者对维基百科的使用情况和行为习惯,发现不同语言版本的维基百科普遍存在一些共同但也有实质性的差异,其中某些使用情况与特定的行为模式密切相关,并且特定的维基百科使用情况更常见于一些具有特定社会经济特征的国家。这些发现对于维基百科的编辑和其他 Web 技术的开发具有重要意义,有助于更好地了解读者的动机和行为。
Dec, 2018
本文提出了一种填补不同语言版本 Wikipedia 的文章覆盖范围空白的方法,通过识别缺失的文章,根据其重要性进行排序,并基于编辑人员的兴趣推荐给他们,经验证,个性化推荐可以将编辑人员的参与度提高两倍,推荐文章被创作的概率提高 3.2 倍,且创作出的文章的质量与自然创作的文章可比拟。该系统可以带来更多参与的编辑人员和更快地发展 Wikipedia,同时不会对其质量产生影响。
Apr, 2016
通过构建多语言模型评价维基百科文章的可读性,作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率,并且提供了维基百科的可读性状况的第一个概述。
Jun, 2024
缺乏多元观点导致维基百科内容中的中立偏见,从而使数百万全球读者接触到潜在的不准确信息。因此,中立偏见的检测和缓解是一个关键问题。我们为此提供了两个大型数据集 mWikiBias 和 mWNC,分别涵盖 8 种语言,用于中立偏见的检测和缓解任务。接下来,我们通过将检测建模为二元分类问题和将缓解建模为样式转换问题,研究了流行的多语言基于 Transformer 的模型在这两个任务中的有效性。我们将代码和数据公开提供。
Dec, 2023
研究称,维基百科不同语言版本中表示实体或主题的文章独立演变,会产生不同观点的反映,需要对信息如何跨越维基百科语言版本进行分析,以支持质量控制。为了便于分析,研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面,可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化,并在特定时间点执行文章快照的详细视觉比较。
Feb, 2017
此论文旨在研究多模态多语言的统一模型,探讨其任务,数据集及方法类别,分析模态与语言之间的相互作用以及模型的优势和劣势,总结该领域的高级趋势并提出挑战和未来研究方向。
Oct, 2022
本研究调查了多语言和非英文环境下公平性问题,并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为,在构建公平性数据集方面,世界上众多多样化的文化和语言使得实现全面覆盖变得不可行,因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法,以便在不同的语言和文化间实现扩展。
Feb, 2023
英语一直被认为是科学研究的 $ extit {lingua franca}$,然而,该研究表明文献主要以多种语言出现,因此建议当前的模型和基准应该体现这种语言多样性,以提高在非英语文献上的表现。
Mar, 2024
本文回顾了多语义 Web 中的语言多样性建模选项,通过对 9 种主要方法进行比较,从 BioPortal 和 LOV 存储库中提取了可访问的本体,并评估了 7 个相关本体编辑器对于管理多语言本体的工具支持。
Oct, 2022