ICCV23视觉对话情感解释挑战: SEU_309团队技术报告
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。
Jan, 2020
我们引入情感视觉对话,这是一个情感解释和推理任务,作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能:(1)基于对话的问答(2)基于对话的情感预测和(3)基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集,称为AffectVisDial,包含50,000个10轮的视觉对话,以及结论性的情感归因和基于对话的情感解释,总计达27,180个工作小时。我们解释了在收集数据集时的设计决策,并介绍了与对话参与者相关的提问者和回答者任务。我们训练并展示了基于最先进模型的坚实的情感视觉对话基准。值得注意的是,我们的模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。我们的项目页面可在此https URL找到。
Aug, 2023
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
使用多模态信息、上下文和情感知识调整的对话型大型语言模型(DialogueLLM),通过对13,638个多模态(文本和视频)情感对话进行微调,克服了大型语言模型在情感识别方面的局限性,并在三个基准情感对话识别数据集上进行了全面评估。
Oct, 2023
大规模视觉语言模型(LVLMs)可以从图像和说明中输出文本,展示出在文本生成和理解方面的先进能力。然而,LVLMs在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题,我们提出了一个新任务:艺术品解释生成任务,同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述,基于这样一个前提:LVLMs应具有关于艺术品的预先存在的知识,艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成:从图像和艺术品标题生成解释,以及仅使用图像生成解释,从而评估LVLMs基于语言和基于视觉的知识。与此同时,我们还发布了一个训练数据集,使LVLMs可以学习包含有关艺术品的解释。我们的发现表明,LVLMs不仅在整合语言和视觉信息方面存在困难,而且在仅从图像中获取知识方面存在更明显的限制。数据集(ExpArt=Explain Artworks)可在以下链接找到:this https URL。
Feb, 2024
该研究开发了小型视觉语言模型,旨在通过情感建模和输入输出特征对齐,识别视觉艺术作品的情感类别并解释预测结果,实验证明该模型在理解视觉艺术方面的性能明显优于基准模型。
Mar, 2024
生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型(LVLMs)的基本能力。我们引入MMDU作为一个综合基准以及MMDU-45k作为一个大规模的指导调整数据集,旨在评估和提高LVLMs在多轮和多图像对话中的能力。
Jun, 2024
通过利用大型语言模型的强大推理能力生成精确的与对话相关的视觉描述符,我们提出了一种新的方法,以实现与图像的无缝连接,并在对话-图像检索性能方面取得了显著的改进。
Jul, 2024