利用 Transformer 进行深度足球描述：数据集、语义相关损失和多级评估

Feb, 2022

利用 Transformer 进行深度足球描述：数据集、语义相关损失和多级评估

Deep soccer captioning with transformer: dataset, semantics-related losses, and multi-level evaluation

Ahmad Hammoudeh, Bastien Vanderplaetse, Stéphane Dupont

TL;DR本文通过深度学习为足球视频生成标题，并介绍了一个包含 22k 个标题 - 视频剪辑对和三种视觉特征（图像、光流和修复）的数据集，使用 transformer、ConvNets 和视觉语言特征融合的模型生成标题，并在句法、语义和语料库三个层面上评估生成的标题。研究表明，使用更多视觉特征和注重选择词汇语义的损失可以提高生成标题的多样性和评分。

Abstract

This work aims at generating captions for soccer videos using deep learning. In this context, this paper introduces a →

captions soccer videos deep learning dataset evaluation

发现论文，激发创造

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

基于 Transformer 的维基百科图像标题匹配多模态提议与重新排序

本文介绍了我们为参加 Kaggle 上的 Wikipedia 图像 - 字幕匹配挑战而设计的系统，该系统使用与图像相关的数据（URL 和视觉数据）来在一个庞大的字幕库中找到正确的字幕。我们提出了两个基于 Transformer 模型的级联模型，能有效地推断查询图像数据与字幕之间的相关度，并通过广泛的实验验证了其在处理大量的图像和字幕时的效果，同时完成一定的验证时间复杂度。在 Kaggle 的私人排名中，我们的方法的标准化折扣累积增益值（nDCG）达到了 0.53。

Jun, 2022

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

协作三流变压器用于视频字幕生成

通过设计一个名为 COllaborative three-Stream Transformers（COST）的新框架，来在视频字幕任务中对句子的主语、谓语和宾语进行特殊关注，通过三个分支的 transformers 以及交叉粒度的注意力模块对不同粒度的视觉 - 语言交互进行建模和对齐，以获得准确的字幕预测。实验证明，COST 方法在视频字幕领域中表现优于现有的方法。

Sep, 2023

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

SoccerNet-Caption：足球转播实时密集视频字幕生成

本文提出了一种基于密集视频字幕的评论生成任务，旨在为足球比赛提供文字评论，以便广播公司能够将视频内容总结成同步且有意义的文字评论，从而更好地满足足球粉丝的需求，增强足球内容的可理解性和可访问性。

Apr, 2023

特征组合与注意力相遇：百度足球嵌入和基于 Transformer 的时间检测

本文提出了一种基于多阶段范式的方法，通过使用动作认知模型提取高级语义特征和设计转换器来定位目标事件，以检测和确定足球广播视频中事件的发生时间，并在 SoccerNet-v2 Challenge 中获得了最新的表现，在动作识别和重播地面任务上均表现出最先进的性能。

Jun, 2021