Oct, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

TL;DRAI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近,大型语言模型(LLMs)通过利用思维链(CoT)在仅使用语言模态上取得了显著的多步推理进展,然而,将这些进展应用于多模态情境引入了更高的挑战,其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理,该研究首先对多模态提出的这些挑战进行了深入分析,并提出了两个关键见解:“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外,该研究提出了一种新颖的 DDCoT 提示,通过负空间提示保持临界态度,并通过首先将 LLMs 的推理责任划分为推理和识别,然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力,显著超过了最先进的方法,而且还展示出令人印象深刻的泛化性和可解释性。