May, 2022

多模态知识对齐与强化学习

TL;DR本论文提出了一种名为 ESPER 的方法,将仅基于语言的零 - shot 模型扩展到未见过的多模态任务,如图像和音频字幕生成,采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐,实验表明该方法胜过了基线和之前工作的新基准测试。