- ACL事件链接:将事件提及与维基百科对接
本研究定义了事件关联,这是一种新的自然语言理解任务,尝试将文章中出现的事件与最相关的维基百科页面链接起来,并贡献了一份数据集用于此任务,同时对两个最新的实体链接模型进行重新训练和评估,并提出了一种用于此任务的竞争性系统 EVELINK。
- ACLTopiOCQA: 开放领域交互式问答技术及主题切换
本文介绍了 TopiOCQA 作为一个开放域对话数据集,涵盖了涉及 Wikipedia 的 3920 个问答型对话,包含主题变换,需要结合对话历史来构建合理的回答,在结合最先进的检索方法与神经读取模型的基础上对其进行多方面的评估。
- ACL通过声明生成进行零射击事实验证
使用 Wikipedia 自动产生问题 - 答案对,生成不同类型的声明的 QACG 框架可以训练一个强健的事实验证模型,实验结果表明,在零样本情况下,QACG 能够将 RoBERTa 模型的 F1 从 50%提高到 77%,并且等效于 20 - SIGIR利用锚文本信息预测维基百科链接
本文针对维基百科上的网页结构,研究了基于锚文本信息的链接预测的困难性和算法,提出了合适的评估抽样方法及基准模型.
- SIGIRWiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集
本文介绍了 Wiki-Reliability 数据集,该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的,主要应用于内容可靠性预测的机器学习和信息检索算法的研究。
- EMNLP针对跨语言任务量身定制的 “维基” 监督神经翻译
该研究提出一种使用维基百科的简单但有效的方法,用于神经机器翻译以及图像字幕和依赖分析的跨语言任务,同时不使用来自外部平行数据或目标语言的监督模型的直接监督。
- 跨维基百科语言追踪知识传播
该研究提供了一份跨语言知识传播数据集,用于追踪 Wikipedia 概念的全面传播历史,并探讨了其支撑结构因素以便未来研究探讨,并同时提出了新的应用如填补知识空缺、虚假信息和文化关系的分析。
- ACL从维基百科引导大规模细粒度上下文广告分类器
本文介绍了一种利用 Wikipedia 分类图解决大规模细粒度文本分类的方法 ——wiki2cat,它可以在无需人工标注的情况下学习和归类广告内容,相对于已有的基于学习和基于关键词的基线模型,该方法具有竞争性的表现。
- EMNLP英文机器阅读理解数据集调查
该论文调查了 60 个英语机器阅读理解数据集,评估其问题和答案形式,并分析了它们的大小,词汇量,数据来源,创建方法,人类性能水平和首问词等特征。研究表明,维基百科是最常见的数据来源,而为什么,什么时候和哪里等问题在不同数据集中相对较少。
- AAAIHopRetriever:从维基百科检索跳跃链接来回答复杂问题
本文提出了一种新的检索目标 hop,通过跨链接和对应出站链接文档的组合来收集维基百科中隐藏的推理证据来回答复杂问题,构建了 HopRetriever 模型,并在 HotpotQA 数据集上实验,表明 HopRetriever 模型的证据检索 - WWW维基百科传记中社会偏见的受控分析
本文介绍了一种分析 Wikipedia 页面的方法,以研究社会偏见对公众舆论的可能影响,结果表明社会偏见具有可疑性,不为协变量控制可能导致不同的结论和偏见。
- AAAILOREN: 基于逻辑规范化的可解释事实验证推理
文章提出了一种基于 LOREN 的 Fact Verification 方法,将整个主张的验证分解成短语级别,以短语真实性作为解释,并根据逻辑规则汇总到最终的裁决中。LOREN 的关键在于将 claim 短语真实性表示为三值潜变量。实验结果 - 分析英文维基百科上的 Wikidata 引用
本文研究了 Wikidata 在 Wikipedia 中的使用情况,提出了一种从读者影响程度角度的分类方法,并发现 Wikidata 内容与 Wikipedia 文章内容相结合的比例比之前的研究结果要低,并提出了关于如何更好地跟踪和支持 W - 事实提取与验证综述
本文研究事实检查问题,特别是 Fact Extraction and VERification (FEVER) 任务及其相关数据集。通过分析不同方法的技术视角和在 FEVER 数据集上的性能结果,我们描述了所提出的方法,重点讨论了句子检索部 - EMNLPCoDEx:一个全面的知识图谱补全基准
介绍 CoDEx,这是一组知识图谱补全数据集,来源于 Wikidata 和 Wikipedia。与现有的补全基准相比,CoDEx 在范围和难度上都有所改进,包含三个大小和结构差异的知识图谱、实体和关系的多语言描述以及数万个可信但已经被验证为 - ACL知识密集型语言任务基准测试
介绍了一个以维基百科作为主要知识源的基准测试(KILT),用于验证条件语言任务(包括开放领域问题回答、事实检查、实体链接和插槽填充)的模型。使用共享密集向量索引和 seq2seq 模型,可以实现良好的性能,且具备互操作性,且可重用用于不同任 - 狗有鬚嗎?一個新的包含 hasPart 關係的知識庫
本研究构建了一个新的知识库,提取了大量的通用语句中的 hasPart 关系,与其他资源不同,它是精确的(90%的精度),显著的(涵盖一个人可能提到的关系),具有高覆盖率的常见术语(近 10 岁的孩子的词汇)。 此外,它包含关于量词,参数修饰 - ACL文本简化中用于句子对齐的神经 CRF 模型
本文介绍了一种新的神经 CRF 对齐模型,用于提高给定语料库中文本简化系统的句子对齐质量,并构建了两个新的文本简化语料库,经过实验证明,本文所提出的方法比以前的所有工作都要表现好,为文本简化的自动化和人工评估奠定了基础。
- WikiUMLS:通过跨语言神经排序将 UMLS 对齐到 Wikipedia
使用跨语言神经重排序模型对统一医学语言系统和维基百科进行手动对齐,精确度高达 72%,比基于词和字符级别的 BM25 方法提高了 20%。我们发布了相关资源,包括为 70 万个统一医学语言系统概念排序的维基百科页面,并提供了一个可用于训练和 - EMNLP低资源跨语言实体链接的设计挑战
本文主要研究 Cross-lingual Entity Linking 领域中的一些技术问题,例如应用于小型 Wikipedia,以及如何选择英文维基百科标题来对应一个外文提及的实体等。作者提出了使用外部跨语言资源的解决方案 QuEL,并通