知识图谱增强转换器用于视频字幕生成

CVPRMar, 2023

知识图谱增强转换器用于视频字幕生成

Text with Knowledge Graph Augmented Transformer for Video Captioning

Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo...

TL;DR本文提出了一种基于知识图谱的 transformer 方法 (TextKG)，分为内外两个流，外部流用于吸收额外知识、缓解长尾词等问题，内部流用于探索多模态信息以保证字幕结果质量。实验表明该方法在视觉字幕领域的四个数据集上均有较好表现。

Abstract

video captioning aims to describe the content of videos using natural language. Although significant progress has been made, there is still much room to improve the performance for real-world applications, mainly due to the →

video captioning knowledge graph transformer long-tail words multi-modality information

发现论文，激发创造

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

使用图形 transformer 从知识图谱生成文本

本文介绍了一种新型图形转换编码器，可处理知识图谱等非层次性图形的内容，应用于科学文本领域的图 - 文本生成，评价结果表明，该技术可以产生比竞争的编码解码方法更具信息量且结构更好的文本。

Apr, 2019

对话系统中基于知识图谱的自然语言生成

使用知识图谱增强对话代理的准确性和全面性，但在对话时生成文本仍被认为是一项具有挑战性的任务，本文回顾了知识图谱文本生成的不同架构，包括图神经网络、图变换器和序列到序列模型，选择使用序列到序列变压器模型（PLMs）作为知识图谱到文本生成任务的模型，并探索未来多语言维度的研究方向。

Jul, 2023

选择与增强：增强型密集检索知识图增强

使用多任务框架，将文本描述与知识图谱实体相关联，以改进知识图谱的性能，并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示，与传统的卷积神经网络相比，使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。

Jul, 2023

JointGT: 知识图谱文本联合表征学习用于文本生成

该论文提出了一种名为 JointGT 的图文联合表示学习模型，该模型可应用于知识图谱自动文本生成。相较于现有的预训练模型，JointGT 将考虑图结构因素进行编码，并利用新的预训练任务（包括分别对文本和图进行重构以及通过最优传输实现图文一致性对齐）来提高性能，进而在多个 KG-to-text 数据集上达到新的最佳表现。

Jun, 2021

视频问题回答的视频图变换器

该研究论文提出了一种名为 VGT 的视频图形转换器模型，旨在解决视频问答任务中动态关系推理方面的挑战，其独特性在于利用动态图形变换器模块对视频进行编码，并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察，证明了 VGT 的有效性和优越性，并揭示了其可用于更数据有效的预训练。

Jul, 2022

基於知識圖譜的合成語料庫生成用於知識增強語言模型預訓練

本文研究了将知识图谱转化为自然语言文本的任务，主要讨论了广泛的开放领域大规模语言生成的挑战，将知识图谱转化为自然语言文本，从而提高了语言模型的事实准确性和减少了毒性。通过对开放领域 QA 和 LAMA 知识探测的任务进行评估，表明该方法在文本检索方面有很大的优势。

Oct, 2020

文本到知识图谱对齐：在分类任务中比较现有方法

本文研究了知识图谱和预训练语言模型相结合的文本分类任务，对常见的文本到知识图谱对齐方法进行了评估，结果表明当前的方法相对于完全相关的查询子图存在一定的局限性。

Jun, 2023

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

基于结构增强的文本表示学习用于高效的知识图谱补全

本研究旨在整合知识图谱的图嵌入和文本编码技术，以提高自动完成知识图谱的性能，实现更精确的链接预测和结构学习。实验结果表明，该方法能实现与文本编码方法相比 1-2 个数量级的推理成本减少和最先进的性能表现。

Apr, 2020