维基百科编辑生命周期的潜在空间分析
本文研究了 Wikipedia 上的编辑战的动态特征,并基于以前建立的算法建立了争议性和和平性文章的样本,并分析了这些样本的时间特征。在短时间尺度上,我们证明了冲突和活动模式的突发性之间存在明显的对应关系,并且记忆效应在争议中起重要作用。在长时间尺度上,我们确定了文章整体行为的三种不同的发展模式。我们能够区分最终导致共识的情况和妥协难以实现的情况。最后,我们分析了讨论网络,并得出结论,编辑战主要由少数编辑人员进行。
Feb, 2012
本研究分析了在六种最活跃的语言版本的 Wikipedia 上,850 万名编辑者的所有 5700 万条留言,研究有毒言论对编辑者行为的潜在影响。我们发现,有毒留言一致降低编辑者的活动水平,短期内对每个用户的活动损失为 0.5-2 天,长期来看则会显著增加编辑辞职的风险,并对整个项目的进展造成阻碍。基于代理模型,我们证明了对 Wikipedia 的毒性攻击可能会扼杀整个项目的进展。这强调了在如 Wikipedia 之类的协作平台上缓解有毒言论的重要性。
Apr, 2023
研究称,维基百科不同语言版本中表示实体或主题的文章独立演变,会产生不同观点的反映,需要对信息如何跨越维基百科语言版本进行分析,以支持质量控制。为了便于分析,研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面,可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化,并在特定时间点执行文章快照的详细视觉比较。
Feb, 2017
通过挖掘 Wikipedia 上数百万的人物传记页面,结合 COSMOS 模型的半监督学习和对比学习思想,本研究成功提取了人物生命轨迹,并提供了公开可用的代码、大量提取的轨迹数据和 WikiLifeTrajectory 数据集,以促进轨迹提取研究并帮助构建宏大叙事的分析研究。
May, 2024
研究利用 Simple English Wikipedia 编辑历史信息提取词汇简化,通过编辑模型与元数据两个方法,发现这两种方法的效果均优于基准结果,并能产生高质量的词汇简化。
Aug, 2010
本研究在维基百科的编辑群体中进行实验,并测试了一种轻量级社交工具对新注册用户撰写其首次编辑的积极性及留存率的影响。结果表明,此机制有效激励并为新手提供了及早、轻量化的交流和指导,从而增加其成为长期贡献者的概率。
Sep, 2014
这篇论文提出使用深度学习来检测维基百科的破坏者,通过开发多源长短时记忆网络(M-LSTM)来建模用户行为,并使用各种用户编辑方面作为输入来进行训练,从而将用户编码为低维实向量,即用户嵌入。最终,这些用户嵌入对于发现协同破坏者具有关键作用。
Jun, 2017
本文提出了一种使用变分推理来学习连续向量表示的新方法,以捕捉有关文档编辑过程的潜在语义信息,同时还介绍了一套下游任务,PEER,旨在衡量自然语言处理环境下编辑表示质量。
Apr, 2020
本文提出了一种适用于动态网络的统计模型 Neural Latent Space Model with Variational Inference,该模型能够表示并预测网络结构的演化,并在同质、双部分和异质网络的真实数据集上表现出优异的性能。
Nov, 2019