Dec, 2023

SMILE: 多模态视频中笑声理解的数据集与语言模型

TL;DR人工智能在社交智能方面的挑战仍然存在,本研究提出了解释视频中人们笑声背后原因的新任务,并提出了一个包含视频和语言描述的数据集,通过利用大型语言模型的推理能力,生成了可以解释笑声的合理解释,进一步探究了该方法在其他视频理解任务中的可扩展性。