使用 Swin Transformer 和基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)

MMSep, 2022

使用 Swin Transformer 和基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)

vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain using Swin Transformer and Attention-based LSTM

Thanh Tin Nguyen, Long H. Nguyen, Nhat Truong Pham, Liu Tai Nguyen, Van Huong Do...

TL;DR本研究提出了一个在医疗保健领域中使用的自动越南语图像字幕生成模型，使用 Swin Transformer 和 LSTM 与关注模块作为编码器和解码器，最终在 VLSP Challenge 2021 中获得第三名的成绩。

Abstract

This study presents our approach on the automatic vietnamese image captioning for healthcare domain in text processing tasks of

vietnamese image captioning swim transformer lstm healthcare domain

发现论文，激发创造

VieCap4H-VLSP 2021：基于注意力机制的对象关系变换器在越南图片字幕生成中的性能优化

本研究提出了一种有效的方法来改进基于转换器的图像理解方法，通过在对象关系转换器结构上扩展 Attention on Attention 机制，实验表明我们的方法在 VLSP 举办的 Image Captioning 共享任务的公共测试和私人测试中显著优于原始结构。

Nov, 2022

使用基于 Transformer 的神经模型提升越南文本序列标注

本文介绍了使用多语言 BERT 嵌入和一些新的神经模型，提高越南语序列标记任务的研究。我们提出了新的模型架构，在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法，并实现了新的最先进结果。

Jun, 2020

BARTPhoBEiT：面向越南视觉问答的预训练序列到序列和图像变换模型

我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT，该模型包括了预训练的越南序列到序列和双向编码器表示，用于评估越南语 VQA 数据集，并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。

Jul, 2023

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

2020 VATEX 视频字幕挑战赛 NITS-VC 系统

本文介绍了用于视频字幕挑战的框架，采用编码器 - 解码器的方法，其中使用 3D 卷积神经网络对视频进行编码，并使用两个 LSTM 递归网络进行解码，最终输出是两个 LSTM 的输出元素乘积，而此模型可以在公共和私人测试数据集上实现 BLEU 得分分别为 0.20 和 0.22。

Jun, 2020

Stack-VS: 堆叠型视觉语义注意力机制用于图像描述生成

提出了一个基于多阶段架构的模型 (Stack-VS)，与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重，并在 MSCOCO 基准测试中取得了显著的提高。

Sep, 2019

KTVIC：一个基于生活领域的越南图像描述数据集

我们介绍了 KTVIC，一个全面的越南图像字幕数据集，专注于生活领域，涵盖广泛的日常活动。我们在该数据集上使用各种深度神经网络作为基准进行实验证明了提出的数据集的有效性和对越南图像字幕领域的潜在贡献。

Jan, 2024

UIT-OpenViIC：越南图像描述评估的新基准

本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC)，用于为低资金研究社区做出贡献。从初步分析中，我们展示了我们的数据集对于最近的 MS COCO 视觉（Vision）转写器基线具有挑战性，这证明 UIT-OpenViIC 有相当大的增长空间，可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法，通过多级编码器输出融合机制有效地提高了图像表示能力，与以前的字幕模型相比，提高了生成的字幕的质量。

May, 2023

phi-LSTM：一种面向短语的分层 LSTM 图像字幕生成模型

本文提出了一种基于短期长期记忆（LSTM）和卷积神经网络（CNN）的基于短语层次结构的模型，可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入，分别学习生成图像相关的名词短语，然后从语料库中的短语和其他单词生成适当的图像描述，并在 Flickr8k 和 Flickr30k 数据集上取得了更好或相当的结果。

Aug, 2016

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

使用 Swin Transformer 和 基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)

使用 Swin Transformer 和基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)