MMSep, 2022
使用 Swin Transformer 和 基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)
vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain using Swin Transformer and Attention-based LSTM
Thanh Tin Nguyen, Long H. Nguyen, Nhat Truong Pham, Liu Tai Nguyen, Van Huong Do...
TL;DR本研究提出了一个在医疗保健领域中使用的自动越南语图像字幕生成模型,使用 Swin Transformer 和 LSTM 与关注模块作为编码器和解码器,最终在 VLSP Challenge 2021 中获得第三名的成绩。