COLINGApr, 2024

多模态表示学习的思维图软提示

TL;DR我们提出了一种新颖的 Aggregation-Graph-of-Thought (AGoT) 机制,用于在多模态表示学习中进行软提示调整,该机制将人类思维过程建模为链式加以思维图,并且通过聚合和流动操作的提示将整个思考过程转化为优化问题,实验证明,我们的多模态模型采用了 AGoT 软提示的方法在文本 - 图像检索、视觉问答和图像识别等任务上获得了良好的结果,同时也因为更好的推理能力在领域泛化方面表现出色。