Jun, 2023

半渗透最大似然估计法学习图像描述生成

TL;DR本文介绍了 Semipermeable MaxImum Likelihood Estimation (SMILE) 模型,该模型允许富度优化而阻止简洁度优化,从而鼓励模型生成更多细节的长字幕。实验证明,SMILE 显着提高了生成字幕的描述性。