任务的映射过程：从维基百科中的 Wikidata 语句到文本句子的转换

Oct, 2022

任务的映射过程：从维基百科中的 Wikidata 语句到文本句子的转换

Mapping Process for the Task: Wikidata Statements to Text as Wikipedia Sentences

Hoang Thang Ta, Alexander Gelbukha, Grigori Sidorov

TL;DR本文介绍了一种将 Wikidata 语句转换为英文维基百科文章的任务转化为自然语言文本的方法，并且对输出内容进行了句子结构分析，噪声过滤以及基于词嵌入模型的句子构成关系评估。

Abstract

Acknowledged as one of the most successful online cooperative projects in human society, wikipedia has obtained rapid growth in recent years and desires continuously to expand content and disseminate knowledge values for everyone globally. The shortage of volunteers brings to

wikipedia content development machine-generated content wikidata data-to-text generation

发现论文，激发创造

基於知識圖譜的合成語料庫生成用於知識增強語言模型預訓練

本文研究了将知识图谱转化为自然语言文本的任务，主要讨论了广泛的开放领域大规模语言生成的挑战，将知识图谱转化为自然语言文本，从而提高了语言模型的事实准确性和减少了毒性。通过对开放领域 QA 和 LAMA 知识探测的任务进行评估，表明该方法在文本检索方面有很大的优势。

Oct, 2020

从 Wikidata 学习为少数语言生成维基百科摘要

本文探讨如何使用 Wikidata 中的结构化数据来生成在 Wikipedia 贫穷语言中的开放领域概要。为此，作者提出了一种神经网络结构，该结构配备有复制操作，可以学习从 Wikidata 三元组中生成单个句子和可理解的文本摘要。作者在阿拉伯语和世界语这两种不同特性的语言上对所提出的方法进行了评估，并证明了它的有效性。

Mar, 2018

神经百科全书：从知识库三元组生成文本摘要

本论文探讨了如何使用神经网络将语义万维网数据的三元组信息转化为定长向量，并在此基础上生成自然语言摘要，经过在维基百科片段和数据库等数据集的训练和评估，表现出了良好的结果。

Nov, 2017

从 Wikidata 学习生成单句传记

利用循环神经网络的序列到序列模型，结合注意力选择 Wikidata 中的事实并生成与之相关的维基百科传记句，模型通过人类偏好评估接近于维基百科参考水平，并且通过分析内容选择，模型可以在推断知识和错觉错误信息之间进行折中。

Feb, 2017

利用 Wikidata 作为 Web 抽取的种子

基于问题回答技术，本研究提出了一个能从网页中提取新事实并推荐给 Wikidata 编辑人员验证的框架，并通过利用 Wikidata 中已有的信息，无需额外学习信号便可训练该框架来提取各种属性和领域的新事实，实验结果表明平均 F1 得分为 84.07，在人类验证之前，有潜力提取数百万条事实，旨在帮助编辑人员的日常任务，完善 Wikidata 知识图谱。

Jan, 2024

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

增加多语言知识图谱中文本信息的覆盖范围和精确度

自然语言处理和计算机视觉领域中近期的研究一直在利用知识图谱中可用的文本信息，例如实体名称和描述，来将神经模型与高质量的结构化数据对接。然而，在非英语语言中，可用的文本信息的数量和质量相对较少。为了解决这个问题，我们提出了自动知识图谱增强（KGE）的新任务，并对英语和非英语语言之间的文本信息的数量和质量差异进行了深入研究。作为对增加多语言覆盖率和实体名称、描述精确度的问题的研究，我们呈现了 M-NTA，一种新的无监督方法，结合了机器翻译（MT），网络搜索（WS）和大型语言模型（LLMs）以生成高质量的文本信息，并研究了增加非英语文本信息的多语言覆盖率和精确度对实体链接、知识图谱补全和问题回答的影响。作为我们朝着更好的多语种知识图谱的努力的一部分，我们还介绍了 WikiKGE-10，第一个跨 7 个语系评估 10 种语言中的 KGE 方法的人工策划的基准。

Nov, 2023

WikiDes: 一份基于维基百科的数据集，用于从段落中生成简短描述

介绍了一个新的名为 WikiDes 的数据集，利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明，该方法在文本摘要中的表现优于传统方法，并可用于生成缺失的描述，丰富 Wikidata 知识图谱。

Sep, 2022

WikiReading：基于维基百科的大规模语言理解任务

本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading，通过阅读相应维基百科文章，预测结构化知识库维基数据中的文本值，并对基于深度神经网络的模型进行了比较，发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型，获得了 71.8％的准确率。

Aug, 2016