维基百科编辑生命周期的潜在空间分析

KDDJul, 2014

维基百科编辑生命周期的潜在空间分析

A Latent Space Analysis of Editor Lifecycles in Wikipedia

Xiangju Qin, Derek Greene, Pádraig Cunningham

TL;DR本篇文章利用主题分析的思想将 Wikipedia 编辑历史活动转化成潜在空间的表示方法，揭示了多种不同类别的编辑者（如内容专家、社交网络者），并展示了这种表示方法可以预测编辑者离开社区的信号；同时，研究结果还表明长期编辑者逐渐实现命名空间的多元化，编辑者属性相对稳定，而短期编辑者的贡献分布随机，编辑者属性波动较大。

Abstract

Collaborations such as wikipedia are a key part of the value of the modern Internet. At the same time there is concern that these collaborations are threatened by high levels of member turnover. In this paper we borrow ideas from topic analysis to editor activity on →

wikipedia editor behavior community turnover latent space representation namespace diversification

发现论文，激发创造

Wikipedia 中的冲突动态

本文研究了 Wikipedia 上的编辑战的动态特征，并基于以前建立的算法建立了争议性和和平性文章的样本，并分析了这些样本的时间特征。在短时间尺度上，我们证明了冲突和活动模式的突发性之间存在明显的对应关系，并且记忆效应在争议中起重要作用。在长时间尺度上，我们确定了文章整体行为的三种不同的发展模式。我们能够区分最终导致共识的情况和妥协难以实现的情况。最后，我们分析了讨论网络，并得出结论，编辑战主要由少数编辑人员进行。

Feb, 2012

有害的评论降低维基百科志愿编辑的活动性

本研究分析了在六种最活跃的语言版本的 Wikipedia 上，850 万名编辑者的所有 5700 万条留言，研究有毒言论对编辑者行为的潜在影响。我们发现，有毒留言一致降低编辑者的活动水平，短期内对每个用户的活动损失为 0.5-2 天，长期来看则会显著增加编辑辞职的风险，并对整个项目的进展造成阻碍。基于代理模型，我们证明了对 Wikipedia 的毒性攻击可能会扼杀整个项目的进展。这强调了在如 Wikipedia 之类的协作平台上缓解有毒言论的重要性。

Apr, 2023

分析跨语种维基百科文章对的时间演变

研究称，维基百科不同语言版本中表示实体或主题的文章独立演变，会产生不同观点的反映，需要对信息如何跨越维基百科语言版本进行分析，以支持质量控制。为了便于分析，研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面，可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化，并在特定时间点执行文章快照的详细视觉比较。

Feb, 2017

一个百万人的路径：从维基百科提取生活轨迹

通过挖掘 Wikipedia 上数百万的人物传记页面，结合 COSMOS 模型的半监督学习和对比学习思想，本研究成功提取了人物生命轨迹，并提供了公开可用的代码、大量提取的轨迹数据和 WikiLifeTrajectory 数据集，以促进轨迹提取研究并帮助构建宏大叙事的分析研究。

May, 2024

通过 LLMs 潜空间增强上下文分类

使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Apr, 2024

为简单起见：从维基百科中无监督地提取词汇简化

研究利用 Simple English Wikipedia 编辑历史信息提取词汇简化，通过编辑模型与元数据两个方法，发现这两种方法的效果均优于基准结果，并能产生高质量的词汇简化。

Aug, 2010

通过轻量级社交化增加维基百科中新用户的留存

本研究在维基百科的编辑群体中进行实验，并测试了一种轻量级社交工具对新注册用户撰写其首次编辑的积极性及留存率的影响。结果表明，此机制有效激励并为新手提供了及早、轻量化的交流和指导，从而增加其成为长期贡献者的概率。

Sep, 2014

Wikipedia 破坏行为早期检测：从用户行为到用户嵌入

这篇论文提出使用深度学习来检测维基百科的破坏者，通过开发多源长短时记忆网络（M-LSTM）来建模用户行为，并使用各种用户编辑方面作为输入来进行训练，从而将用户编码为低维实向量，即用户嵌入。最终，这些用户嵌入对于发现协同破坏者具有关键作用。

Jun, 2017

自然语言编辑表示学习的变分推理

本文提出了一种使用变分推理来学习连续向量表示的新方法，以捕捉有关文档编辑过程的潜在语义信息，同时还介绍了一套下游任务，PEER，旨在衡量自然语言处理环境下编辑表示质量。

Apr, 2020

动态网络和时态知识图谱的神经潜空间模型

本文提出了一种适用于动态网络的统计模型 Neural Latent Space Model with Variational Inference，该模型能够表示并预测网络结构的演化，并在同质、双部分和异质网络的真实数据集上表现出优异的性能。

Nov, 2019