ACLMay, 2021

多模态图像字幕生成(面向视觉障碍人士)

TL;DR本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频,实现文本检测和复制,提高图像字幕性能从而更好地帮助视力受损人士理解环境。