Mar, 2023

为预训练语言模型整合非语言线索而文本化多模态信息

TL;DR本文研究了如何将非语言性特征(例如视觉和听觉)转化为对应的文本描述,并将其与口头文本结合,从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI,并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune,取得了令人满意的性能,因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。