阿拉伯之春周边多元集体记忆的跨语言演变
通过探索性分析和构建自动检测系统,本文旨在解决埃及阿拉伯维基百科中模板翻译问题,并利用文章元数据构建多变量机器学习分类器来自动检测这些模板翻译文章。最终,将最佳分类器 XGBoost 发布为名为 EGYPTIAN WIKIPEDIA SCANNER 的在线应用,并向研究界提供提取、过滤和标记的数据集,以便从我们的数据集和在线网络检测系统中获益。
Mar, 2024
通过追踪在公共语料库中的实体,即社会媒体和新闻流中的在线文本流,我们研究了在线上如何形成集体记忆,发现了 “突发” 和 “延迟” 两种主要出现模式。
Jan, 2017
研究称,维基百科不同语言版本中表示实体或主题的文章独立演变,会产生不同观点的反映,需要对信息如何跨越维基百科语言版本进行分析,以支持质量控制。为了便于分析,研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面,可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化,并在特定时间点执行文章快照的详细视觉比较。
Feb, 2017
本研究探讨语言对用户生成内容的碎片化影响,通过检查 25 种不同的维基百科语言版本中的知识表示多样性。研究发现维基百科的语言多样性大于先前研究的预测,并对利用维基百科作为世界知识来源的应用程序产生重要影响。最后阐述了如何利用这种知识多样性创造 “文化意识应用” 和 “超语言应用程序”。
Apr, 2019
本文研究了 Wikipedia 上的编辑战的动态特征,并基于以前建立的算法建立了争议性和和平性文章的样本,并分析了这些样本的时间特征。在短时间尺度上,我们证明了冲突和活动模式的突发性之间存在明显的对应关系,并且记忆效应在争议中起重要作用。在长时间尺度上,我们确定了文章整体行为的三种不同的发展模式。我们能够区分最终导致共识的情况和妥协难以实现的情况。最后,我们分析了讨论网络,并得出结论,编辑战主要由少数编辑人员进行。
Feb, 2012
运用 Markov 链和 Google 矩阵方法,分析了 24 种不同语言维基百科超链接网络中的历史人物,并根据他们的文化背景研究了它们的空间、时间和性别分布,发现了文化之间的交错和文化之间相互影响的最具影响力的文化,并构建了跨文化交流的网络。
May, 2014
提供了一种黄金标准语料库,其中包含各种国家的各种本地和国际来源,用于自动分类新闻文章和提取与抗议事件相关的信息,并在社会和政治科学研究中构建知识库。
Aug, 2020
该研究提供了一份跨语言知识传播数据集,用于追踪 Wikipedia 概念的全面传播历史,并探讨了其支撑结构因素以便未来研究探讨,并同时提出了新的应用如填补知识空缺、虚假信息和文化关系的分析。
Mar, 2021
本研究通过比较维基百科的不同语言版本,探索了欧洲人对不同文化的烹饪习惯描述的差异,并提出了一种通过对语言社区的食品文化的描述和兴趣来挖掘不同语言社区间文化关系的方法。我们通过多种外部数据源(即欧洲社会调查、移民统计)、众包方法和模拟来评估所提取关系的有效性。
Nov, 2014