- 将迪德罗的《百科全书》中的命名实体链接到维基数据
描述了超过 10,300 个 Encyclopédie 条目与 Wikidata 识别符的注释,使其与图形连接起来,并考虑了地理和人物实体。
- 一个用于评分维基百科可读性的开放多语言系统
通过构建多语言模型评价维基百科文章的可读性,作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率,并且提供了维基百科的可读性状况的第一个概述。
- 低资源语言与在线知识库:一项需求调研研究
研究通过对维基百科论坛讨论和对 14 个新手贡献者进行的环境调查,发现在低资源语言贡献者中存在一些问题,如在低资源语言中验证文章的资源匮乏以及语言技术支持(如翻译系统和拼写检查)导致多个错误从而浪费贡献者的时间。希望该研究能够支持设计师使在 - Hoaxpedia: 统一的维基百科恶作剧文章数据集
此研究通过系统分析真实与骗局维基百科文章之间的相似性和差异,并引入 Hoaxpedia,一个包含 311 篇骗局文章和语义相似的真实文章的集合,通过多种设置和语言模型进行二元分类实验,结果显示,基于内容的检测维基百科中的欺骗性内容是一个有前 - 阿拉伯之春周边多元集体记忆的跨语言演变
阿拉伯之春的阿拉伯维基百科与英文维基百科文章的时间演变对在线集体记忆过程的理论化和在这些数据上训练的语言模型的评估具有重要意义。
- COLING使用维基百科超链接自动构建大规模地理解析语料库
通过使用维基百科文章中的超链接将多个位置表达式与坐标关联起来,我们构建了 WHLL(Wikipedia Hyperlink-based Location Linking)语料库,该语料库包含 130 万篇文章,每篇文章大约包含 7.8 个独 - 大规模综合监督的跨语言开放领域问答预训练
基于自我监督方法的编码器 - 解码器模型在跨语言问答中表现出色,利用维基百科的跨语言链接结构,综合生成监督信号,提高了检索和回答生成的性能,相比于其他方法,包括机器翻译,CLASS 方法在监督和零资源语言适配等方面均取得更好的效果。
- AAAIWikiformer: 以维基百科结构化信息预训练的 Ad-hoc 检索
利用维基百科的结构化知识,我们设计了四种针对信息检索任务的预训练目标,实验结果表明,相较于现有的预训练方法,我们的模型在零样本和微调设置中都表现出优越的性能,尤其是在需要长文本相似度匹配的垂直领域。
- EMNLP为何应删除此文章?多语言维基百科编辑讨论中的透明立场检测
通过构建多语言数据集和联合预测模型,该研究提供了透明化内容审查的决策过程,以提高在线平台上内容的透明度和自动化审查研究的进展。
- 维基百科文章的自动质量评估 —— 系统文献综述
维基百科是世界上最大的在线百科全书,但通过合作维护文章质量是具有挑战性的。本文回顾了现有的自动测量维基百科文章质量的方法,并识别和比较了机器学习算法、文章特征、质量指标和使用的数据集,检查了 149 个独立的研究,并探讨了它们之间的共同点和 - 生成式多模态实体链接
在大规模预训练模型的基础上,提出了一种基于自然语言生成的简单而有效的跨模态实体链接方法,通过使用 in-context learning 能力以及取回多模态实例作为演示来自适应语言模型来解决昂贵且难以扩展的困境。
- 维基百科公平的多语言破坏检测系统
本文介绍了一种新型系统的设计,旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术,包括多语言掩蔽语言模型,从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比 - WikiSQE:维基百科句子质量评估的大规模数据集
提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章 - KEPLET:具备主题实体意识的知识增强预训练语言模型
本文提出了一种新型的 KEPLMs - KEPLET,它不仅考虑了维基百科丰富的语料库结构,还具有主题实体感知。实验证明,KEPLET 应用于两种典型的 KEPLMs,在四项实体中心任务中取得了显著的改进。
- 有害的评论降低维基百科志愿编辑的活动性
本研究分析了在六种最活跃的语言版本的 Wikipedia 上,850 万名编辑者的所有 5700 万条留言,研究有毒言论对编辑者行为的潜在影响。我们发现,有毒留言一致降低编辑者的活动水平,短期内对每个用户的活动损失为 0.5-2 天,长期来 - APOLLO: 适应性预训练逻辑推理语言模型的简单方法
本文提出了一个适应性预训练语言模型 APOLLO,使用特定的逻辑推理关键词来选择维基百科的子集进行预训练,使用自我监督损失函数进行训练,无需特定的任务格式,与基线模型相比,在逻辑推理数据集上表现相当或更好。
- EMNLP如何有效地进行不同意:研究维基百科争论中使用的策略
我们提出了一个辩论战术的框架,用于统一争议的各种方面,并注释了来自维基百科讨论页面的 213 个争议,使用变压器模型是预测争议战术的最佳选择。
- 任务的映射过程:从维基百科中的 Wikidata 语句到文本句子的转换
本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法,并且对输出内容进行了句子结构分析,噪声过滤以及基于词嵌入模型的句子构成关系评估。
- 基于维基百科概念的噪音文本主动信息检索
本文探究了如何利用 Wikipidia 概念传递查询上下文以提高对嘈杂文本的主动信息检索的性能,并提出了两种模型,利用实体链接将 Wikipedia 主题与相关性模型关联。实验结果表明,Wikipedia 概念与检索结果相关性之间存在明显信 - 俄语网络表格:基于维基百科的俄语网络表格公共语料库
本论文创建了首个俄语网络表格语料库,并开发了一个特殊工具以抓取俄语维基百科数据,用作数据提取、知识库构建、问题解答等任务的数据源及测试数据集。同时,对俄语维基百科表格及其统计数据做了简要研究。