任务的映射过程:从维基百科中的 Wikidata 语句到文本句子的转换
本文研究了将知识图谱转化为自然语言文本的任务,主要讨论了广泛的开放领域大规模语言生成的挑战,将知识图谱转化为自然语言文本,从而提高了语言模型的事实准确性和减少了毒性。通过对开放领域 QA 和 LAMA 知识探测的任务进行评估,表明该方法在文本检索方面有很大的优势。
Oct, 2020
本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。 为此,作者提出了一种神经网络结构,该结构配备有复制操作,可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估,并证明了它的有效性。
Mar, 2018
本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量,并在此基础上生成自然语言摘要,经过在维基百科片段和数据库等数据集的训练和评估,表现出了良好的结果。
Nov, 2017
利用循环神经网络的序列到序列模型,结合注意力选择 Wikidata 中的事实并生成与之相关的维基百科传记句,模型通过人类偏好评估接近于维基百科参考水平,并且通过分析内容选择,模型可以在推断知识和错觉错误信息之间进行折中。
Feb, 2017
基于问题回答技术,本研究提出了一个能从网页中提取新事实并推荐给 Wikidata 编辑人员验证的框架,并通过利用 Wikidata 中已有的信息,无需额外学习信号便可训练该框架来提取各种属性和领域的新事实,实验结果表明平均 F1 得分为 84.07,在人类验证之前,有潜力提取数百万条事实,旨在帮助编辑人员的日常任务,完善 Wikidata 知识图谱。
Jan, 2024
提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章评分实验中表现出更好的泛化性能,并有望成为自然语言处理中其他任务的有价值的资源。
May, 2023
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
自然语言处理和计算机视觉领域中近期的研究一直在利用知识图谱中可用的文本信息,例如实体名称和描述,来将神经模型与高质量的结构化数据对接。然而,在非英语语言中,可用的文本信息的数量和质量相对较少。为了解决这个问题,我们提出了自动知识图谱增强(KGE)的新任务,并对英语和非英语语言之间的文本信息的数量和质量差异进行了深入研究。作为对增加多语言覆盖率和实体名称、描述精确度的问题的研究,我们呈现了 M-NTA,一种新的无监督方法,结合了机器翻译(MT),网络搜索(WS)和大型语言模型(LLMs)以生成高质量的文本信息,并研究了增加非英语文本信息的多语言覆盖率和精确度对实体链接、知识图谱补全和问题回答的影响。作为我们朝着更好的多语种知识图谱的努力的一部分,我们还介绍了 WikiKGE-10,第一个跨 7 个语系评估 10 种语言中的 KGE 方法的人工策划的基准。
Nov, 2023
介绍了一个新的名为 WikiDes 的数据集,利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明,该方法在文本摘要中的表现优于传统方法,并可用于生成缺失的描述,丰富 Wikidata 知识图谱。
Sep, 2022
本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading,通过阅读相应维基百科文章,预测结构化知识库维基数据中的文本值,并对基于深度神经网络的模型进行了比较,发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型,获得了 71.8%的准确率。
Aug, 2016