基于注意力机制的编码解码模型用于尼泊尔语视频字幕生成 (2023)

Dec, 2023

基于注意力机制的编码解码模型用于尼泊尔语视频字幕生成 (2023)

Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)

Kabita Parajuli, Shashidhar Ram Joshi

TL;DR本研究论文利用 LSTM 和 GRU 模型开发了一种新颖的编码器 - 解码器范例，用于尼泊尔视频字幕生成，利用 Devanagari 文字进行相关描述，并通过 BLEU、METOR 和 ROUGE 等指标评估其性能。

Abstract

video captioning in nepali, a language written in the devanagari script, presents a unique challenge due to the lack of existing academic

video captioning nepali devanagari script encoder-decoder paradigm lstm and gru models

发现论文，激发创造

使用 CNN-RNN 架构进行尼泊尔语视频字幕生成

本研究以深度神经网络为基础，通过整合预训练的卷积神经网络（CNN）和循环神经网络（RNN），着重探讨生成尼泊尔视频的精确且相关的字幕。研究过程包括数据收集、数据预处理、模型实施和评估。通过使用谷歌翻译为 MSVD 数据集添加尼泊尔字幕，研究训练了多种 CNN-RNN 架构。研究探讨了不同 RNN 解码器（如 LSTM、GRU 和双向 LSTM）与 CNNs（如 EfficientNetB0、ResNet101 和 VGG16）的有效性。评估使用 BLEU 和 METEOR 指标，最佳模型为 EfficientNetB0 + BiLSTM，具有 1024 隐藏维度，BLEU-4 分数为 17，METEOR 分数为 46。本文还概述了尼泊尔视频字幕生成的挑战和未来发展方向，为该领域的进一步研究提供了重要资源。

Nov, 2023

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

2020 VATEX 视频字幕挑战赛 NITS-VC 系统

本文介绍了用于视频字幕挑战的框架，采用编码器 - 解码器的方法，其中使用 3D 卷积神经网络对视频进行编码，并使用两个 LSTM 递归网络进行解码，最终输出是两个 LSTM 的输出元素乘积，而此模型可以在公共和私人测试数据集上实现 BLEU 得分分别为 0.20 和 0.22。

Jun, 2020

使用 CNN、双向 LSTM 和 ResNet 的尼泊尔语自动语音识别

本文介绍了一种端到端的深度学习模型，用于将尼泊尔语音转录为文本的自动语音识别（ASR）。该模型在 OpenSLR（音频、文本）数据集上进行了训练和测试，使用了 MFCC 作为音频特征，采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型，在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上，字符错误率（CER）达到了 17.06%。

Jun, 2024

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

评估序列到序列模型在手写文本识别中的应用

该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Mar, 2019

尼泊尔语和孟加拉语的光学文本识别：基于 Transformer 的方法

该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展，以低资源语言（如孟加拉语和尼泊尔语）为例，通过对手写和打印的光学文本图像的集合进行评估，结果表明该技术与当前方法相符，并在孟加拉语和尼泊尔语的文本识别中取得了高精度，从而为东南亚地区的语言学研究打开了先机。

Apr, 2024

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022