知识图谱支持的篮球基准测试和视频字幕

Jan, 2024

知识图谱支持的篮球基准测试和视频字幕

Knowledge Graph Supported Benchmark and Video Captioning for Basketball

Zeyu Xi, Ge Shi, Lifang Wu, Xuefen Li, Junchi Yan...

TL;DR提出了一个用于视频字幕的新的多模态篮球知识支持基准，通过构建多模态篮球比赛知识图谱，将视频中的时间信息编码并推荐识别关键球员，以提升篮球直播字幕的质量。

Abstract

Despite the recent emergence of video captioning models, how to generate the text description with specific entity names and fine-grained actions is far from being solved, which however has great applications such as ba

video captioning multimodal knowledge basketball benchmark entity-aware captioner

发现论文，激发创造

为实时足球解说生成挑战性的知识驱动视频字幕基准而设定的目标

本研究提出了 GOAL 基准测试，通过 22k 个句子和 42k 个知识三元组，对超过 8.9k 个足球视频剪辑进行挑战性的新任务设置，即基于知识的视频字幕生成，旨在生成关于特定领域场景的生动、细致的视频描述，为自动体育叙述等领域提供了广泛应用。同时，对现有方法进行实验改进，展示了解决这一有价值有应用的任务的困难和潜在方向。

Mar, 2023

多模态知识图谱增强实体感知图像描述

该研究提出一种构建多模态知识图谱，将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法，以帮助名实体感知图像并生成更具信息量的事件描述。

Jul, 2021

知识图谱增强转换器用于视频字幕生成

本文提出了一种基于知识图谱的 transformer 方法 (TextKG)，分为内外两个流，外部流用于吸收额外知识、缓解长尾词等问题，内部流用于探索多模态信息以保证字幕结果质量。实验表明该方法在视觉字幕领域的四个数据集上均有较好表现。

Mar, 2023

MSG-BART: 视频情景增强的多粒度编码器 - 解码器语言模型用于基于视频的对话生成

提出了一种名为 MSG-BART 的新方法，通过将多粒度时空场景图集成到编码器 - 解码器预训练语言模型中，增强了视频信息的整合，改进了整体感知和目标推理能力，进一步提高了信息选择能力。在三个视频对话基准测试上进行了广泛的实验，表明 MSG-BART 相比一系列最先进的方法具有显著的优势。

Sep, 2023

知识图谱辅助自动体育新闻写作

本论文提出了一种新颖的方法，通过提取直播文本中的关键时刻，并使用它们创建新闻的初始草稿，进一步通过特殊设计的体育知识图谱中的关键细节和背景信息进行改进，利用融合卷积神经网络和变换器编码器的多阶段学习模型，通过处理器计算不完整三元组的匹配分数，解决了少样本知识图谱补全问题，并经过主客观评估确认其能够彻底改变体育新闻的创作方式。

Feb, 2024

视频摘要：朝向实体感知字幕

在这篇论文中，我们提出了直接生成有实体感知能力的新闻视频标题的任务，并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时，我们还提出了一种方法，通过从外部世界知识中检索到的上下文来增强视频中的视觉信息，以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解，我们证明了我们方法的有效性，并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。

Dec, 2023

Game-MUG：多模态定向游戏情境理解与评论生成数据集

介绍 GAME-MUG，一个包含多模态游戏情境理解和观众参与评论生成数据集的新数据集，以及使用鲁棒性联合多模态双学习模型作为基线的新观众对话增强评论数据集。通过覆盖游戏情境和观众对话的学习，引入时间序列事件日志，检查模型对游戏情境 / 事件的理解能力和评论生成能力，展示多模态方面覆盖和联合集成学习方法的有效性。

Apr, 2024

从密集视频字幕中提取语义元数据

通过使用 MT 和 PVDC 生成视频字幕，我们提出了一个从自动生成的视频字幕中提取语义元数据的框架。我们的实验表明，可以从生成的字幕中提取实体，属性，实体之间的关系和视频类别。

Nov, 2022

MIKE: 一种新的细粒度多模态实体知识编辑基准

通过我们的广泛评估，我们展示了目前最先进的方法在解决我们提出的基准测试中面临着重大挑战，凸显了多模态大型语言模型中细粒度知识编辑的复杂性，这进一步凸显了在这个领域中需要创新方法的迫切需求，为未来的研究和开发工作设定了明确的议程。

Feb, 2024

GEB+: 通用事件边界字幕、关联和检索基准

本文介绍了一个新的数据集 Kinetic-GEB+，该数据集有助于通过状态更改促进视频的细粒度、鲁棒性和类人理解，还设计了新的 TPD 建模方法，可使视觉差异的表示和精确定位状态更改得到显著的性能改进。

Apr, 2022