- WikiDes: 一份基于维基百科的数据集,用于从段落中生成简短描述
介绍了一个新的名为 WikiDes 的数据集,利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明,该方法在文本摘要中的表现优于传统方法,并可用于生成缺失的描述,丰富 Wikidata 知识图谱。
- 基于百科全书的设计创新语义网络
本研究提出了一种语义网络构建模型 WikiLink,它可以利用维基百科的数据作为语料库,结合统计和语义权重的方法构建出高覆盖率的语义网络,并基于四种算法实现创意的启发,为概念设计的创新提供了一种思路。
- COLINGIMCI: 集成多视图语境信息用于事实提取和验证
本文提出了一种用于事实提取和验证的多视图上下文信息(IMCI)框架,通过一个特定算法对相应声称的可信度进行验证。该算法可获得更优秀的性能表现以及在 FEVER 1.0 共享任务中的最高 77%正确率。
- 利用自然监督进行语言表示学习和生成
本论文研究了三个方面的工作:如何提高预训练模型在 NLP 任务中的性能,在维基百科和释义上利用语言结构以提取知识,以及定制文本资源以建立挑战性的评估任务。
- 使用人工智能提高维基百科的可验证性
使用神经网络为基础的系统 Side 帮助鉴定并更换可能无法验证主张的 Wikipedia 引用,结果表明人类对 Side 建议的更好的引用的选择有 70% 的偏好率。这为辅助事实核查并提高信息可靠性提供了潜在的新途径。
- ABB-BERT:用于消歧缩写和缩略语的 BERT 模型
本文介绍了一种基于 BERT 模型的 ABB-BERT 模型,旨在解决包含缩写和收缩词的模糊语言的拼写纠正问题。该模型可以从成千上万的选项中对它们进行排名,并可在 Wikipedia 文本上进行训练,以便在领域或个人方面实现更好的性能。
- ICLR基于 Transformer 的维基百科图像标题匹配多模态提议与重新排序
本文介绍了我们为参加 Kaggle 上的 Wikipedia 图像 - 字幕匹配挑战而设计的系统,该系统使用与图像相关的数据(URL 和视觉数据)来在一个庞大的字幕库中找到正确的字幕。我们提出了两个基于 Transformer 模型的级联模 - 锚点预测:一种基于主题建模的方法
本文提出了一种上下文相关的关系主题模型 (CRTM),可用于自动识别源文档中的锚点,无需依赖先前提到的字典或任何外部知识图谱,并可以自动建议链接,展示了该方法在英语、意大利语和德语的维基百科语料库上的实用性。
- Descartes: 生成维基百科文章的简短描述
该研究提出了一种自动生成多语言维基百科文章简短描述的方法,该方法整合了文章的多种语言版本、已有的简短描述和知识图谱中的语义类型信息,其生成的文章描述已通过人类评价的测试。
- ACL神经会话生成的词汇知识内化
通过内部化知识的方式,将词汇知识融入神经对话模型中,以应对因词汇知识规模庞大而带来的挑战,并采用对比学习方法创建了一个基于弱监督自 Wikipedia 挖掘的有效的标记级别的词汇知识检索器,证明了该方法在各种数据集和多元化模型结构上的有效性 - 部分注释数据的命名实体识别
本研究比较了三种部分标注数据集的训练策略以及从维基百科派生新实体类数据集的方法,并针对两个新类别(食品和药物)手动注释测试数据集以验证数据获取和训练方法的可行性。
- 从维基百科注入知识以增强立场检测
本文介绍了一种利用维基百科知识的立场检测算法 WS-BERT,通过将知识注入到立场编码中增强了算法的表现,在跨目标、少样本等多个数据集上性能显著优于现有方法。
- ICLR多语言维基百科研究的考虑因素
本文详细介绍了不同语言版本的维基百科之间存在的差异,并提出了如何使用多语言和多模态数据进行研究和建模的建议。
- 基于句子 BERT 的监督学习通过维基百科预测全球城市交通类型
使用监督机器学习方法结合维基百科页面的自然语言处理技术,预测和分类城市类型,为城市规划和交通运输决策提供重要参考,并开拓了使用维基百科等文本数据作为数据源的新机会。
- SU-NLP 在 SemEval-2022 任务 11 中的复杂命名实体识别与实体链接
本文介绍了 Sabancı大学自然语言处理小组在 SemEval-2022 MultiCoNER 任务中提出的系统。我们开发了一种无监督的实体链接流水线,利用维基百科检测潜在的实体提及,并使用相应的维基百科上下文来帮助分类器找到该提及的命名 - ACLC-MORE: 通过查询数百万参考文献进行预训练以回答开放领域问题
本文介绍了一种使用维基百科引用构建大规模预训练语料库以满足开放域问答系统的需求的方法,并测试了改进后的 retriever 和 reader 在精确度和 top-20 准确率方面的表现。
- DAMO-NLP 在 SemEval-2022 任务 11 中的表现:一种基于知识的多语言命名实体识别系统
本文介绍了 DAMO-NLP 提出的基于维基百科的多语言知识库,用于提供上下文信息以帮助在短文本和低上下文环境中的多义和复杂命名实体识别。通过将知识库中的相关上下文与输入句子进行匹配,我们的系统能够有效地检索相关上下文信息并将其用于输入句子 - 从维基百科修订历史中挖掘自然形成的纠错和改写
通过 Wikipedia 修订历史创建的 WiCoPaCo(Wikipedia 纠正和改写语料库)是一个重要的资源,它包含了人工编辑的大量文本修正和改写,对于训练、评估自动处理文本的过程以及语言研究都非常有用,本文介绍了 WiCoPaCo - EMNLP跨语言摘要模型与数据集
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
- JaQuAD: 用于机器阅读理解的日语问答数据集
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78