- Wikidata 是否支持类比推理?
本文旨在研究 Wikidata 是否支持类比推理,发现 Wikidata 中关键的联合信息通常缺失或模型不一致,需要大量的人工工作才能用于类比分类,同时提出了一组指标来指导自动从 Wikidata 中提取类比的方法。
- WikiDes: 一份基于维基百科的数据集,用于从段落中生成简短描述
介绍了一个新的名为 WikiDes 的数据集,利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明,该方法在文本摘要中的表现优于传统方法,并可用于生成缺失的描述,丰富 Wikidata 知识图谱。
- 使用链接开放数据丰富维基数据
本文尝试借助异构链接数据和语义 Web 技术,提出了一种新的方案来丰富 Wikidata 知识库,并使用 DBpedia 和 Getty 图像库作为实现案例,结果表明该方法可为 Wikidata 注入数百万条高质量的数据。
- 跨语言知识图谱实体标签映射的统计和神经方法
本研究探讨使用单词和句子对齐技术以及匹配算法来对来自特定多个语言的 Wikidata 实体标签进行对齐,并展示使用该技术能显着提高信息一致性的 F1 得分,尤其是使用句子嵌入技术的方法,这将可以用于机器翻译等领域。
- 从维基数据构建广泛数据口语化数据集 WDV
本研究提出了一个基于 Wikidata 的大型知识图谱的口语化理解数据集 WDV,以填补当前 KG 口语化数据集在丰富性和紧密耦合性方面存在的空缺,同时通过衡量人类可读程度和足够性等可重复的工作流程评估了信息转化的质量。
- ACL利用多任务问答在语言模型中灌输类型知识
该研究论文介绍了一种利用基于类型的问题通过文本预训练在语言模型中灌输细粒度类型知识的方法,并利用知识库文档和知识图谱创建 WikiWiki 数据集来评估性能。该方法在零 - shot 对话状态跟踪基准测试中取得了最先进的表现,可以准确地推断 - ParaNames:一个大规模多语种实体名称语料库
ParaNames 为跨越 400 种语言的 118 百万个人名提供了一个多语言平行名字库,映射到标准化的实体类型,并使用 Wikidata 作为数据源,为定义任务、实体识别和链接等提供了有用的多语言处理补充数据。
- ACL基于实体简介生成的 Wikidata 实体链接候选集提升
该研究提出了一种基于实体建模的候选实体检索范式,该范式首先将 Wikidata 实体及其文本字段索引到文本搜索引擎中,再使用序列到序列模型生成目标实体的摘要,从而查询已索引的搜索引擎以检索候选实体,最后结合交叉注意力重新排序器,实现了在三个 - ACL走向更有意义的低资源语言资源
介绍了关于开发与使用低资源语种有意义资源的立场,并分析了两个多语种资源的内容、质量以及注重使用该语种的用户开发这些资源的伦理问题,并提出了资源开发的指导方针。
- 基于知识库的通用且可解释的时间问答基准
本文提出了一个基于 Wikidata 的时间问答数据集 TempQA-WD,以鼓励更多的研究在复杂推理任务方面的延伸和拓展。该数据集具有以下特点:(a)包含了中间 sparql 查询以方便基于语义解析的 KBQA 方法的评估,(b)可以推广 - 维基数据上英语实体链接调查
本文综述了当前 Wikidata 实体链接数据集的构建及特点,并指出现有实体链接方法仅利用 Wikidata 标签等通用特性,未充分利用其特有的超关系结构,提出应该加入超关系图嵌入和类型信息以提高实体链接质量,并探讨了与 Wikipedia - ACL挖掘 Wikidata 以获得非洲语言姓名资源
本研究提供了一个由 Wikidata 衍生的、对应于常见实体类型 (个人、位置、组织) 的名称列表资源,以支持为非拉丁字母语言开发语言技术的进一步发展。我们生产了包含约 1.9 百万个名字的列表,涵盖了 28 种非洲语言,同时讨论了数据的产 - 分析英文维基百科上的 Wikidata 引用
本文研究了 Wikidata 在 Wikipedia 中的使用情况,提出了一种从读者影响程度角度的分类方法,并发现 Wikidata 内容与 Wikipedia 文章内容相结合的比例比之前的研究结果要低,并提出了关于如何更好地跟踪和支持 W - EMNLPCoDEx:一个全面的知识图谱补全基准
介绍 CoDEx,这是一组知识图谱补全数据集,来源于 Wikidata 和 Wikipedia。与现有的补全基准相比,CoDEx 在范围和难度上都有所改进,包含三个大小和结构差异的知识图谱、实体和关系的多语言描述以及数万个可信但已经被验证为 - Wikidata 中的常识知识
本研究调查了 Wikidata 中是否包含与现有常识源不同的常识知识,并通过三个指导原则生成了 Wikidata 的常识子图。实验发现,尽管 Wikidata-CS 表示 Wikidata 的一小部分,但它是包含相关常识知识的指示器,可以映 - 评估知识图谱上下文对实体消歧模型的影响
本篇文章提出了一种基于知识图谱(如 Wikidata)的上下文推断方法,以提高预训练 transformer 模型在实体消歧(Named Entity Disambiguation)方面的性能,并通过实验证明该方法可以推广到维基百科,并显著 - 注意事实:知识增强的连贯抽象文本摘要
本文提出了一种新颖的基于 Transformer 编码器 - 解码器结构的体系结构,通过将实体级知识与来自 Wikidata 的结构全球知识结合,改善了摘要不够准确和连贯的问题,实验证明该模型对长文本摘要具有较好的 ROUGE 分数的提高效 - Falcon 2.0: 一个基于 Wikidata 的实体和关系链接工具
本文介绍了一个名为 Falcon 2.0 的自然语言处理工具,用于联合识别英文文本中的实体和关系,并将其连接到 Wikidata 知识库中,最终表现出优异的性能。
- 引入 MathQA - 一种数学感知问答系统
我们提出了一种基于 Ask Platypus 的开源数学感知问答系统,它能够针对英语或印地语的自然语言问题返回单一的数学公式。这些公式来源于知识库 Wikidata,并通过 sympy 计算引擎将其转换为可计算的数据,用户可以为公式中出现的 - OpenTapioca:Wikidata 的轻量级实体链接
提出了一种简单的命名实体链接系统,只能从 Wikidata 进行训练,这证明了该数据源在此任务中的优缺点,并提供了一个易于复制的基准来与其他系统进行比较,我们的模型在实时与 Wikidata 保持同步时轻量级,易于训练和操作。