Dec, 2023

基于神经模型的图像标题增强

TL;DR本研究使用深度学习模型来探索神经图像字幕生成的领域,研究不同的神经网络架构配置,重点关注注入架构,并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析,本研究揭示了图像字幕生成中的挑战和机遇,深入洞察了模型行为和过度拟合问题。结果显示,尽管合并模型具有更大的词汇量和更高的 ROUGE 分数,注入架构生成相关而简洁的图像字幕。研究还强调了优化训练数据和超参数以提高模型性能的重要性。本研究为神经图像字幕生成领域的日益增长的知识体系做出了贡献,鼓励进一步探索该领域,强调了人工智能的民主化。