ICCV23视觉对话情感解释挑战: SEU_309团队技术报告

Jul, 2024

ICCV23视觉对话情感解释挑战: SEU_309团队技术报告

ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report

Yixiao Yuan, Yingzhe Peng

TL;DR我们使用最新的多模型方法，包括语言模型（LM）和大视觉语言模型（LVLM），在基于视觉对话的情感解释生成挑战中取得了卓越的性能，超越了现有的基准，并在F1和BLEU指标上获得了显著评分，在生成准确的情感解释方面展示了杰出的能力，推动了我们对艺术中情感影响的理解。

Abstract

The visual-dialog based emotion explanation generation challenge focuses on generating emotion explanations through visual-dialog interactions in art discussions. Our approach combines state-of-the-art multi-modal model

发现论文，激发创造

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

情感驱动的对话生成

本文介绍了一种能够控制情感内容的情感驱动对话系统的方法，通过使用连续的情感表示来模拟词和句子级别的情感，并在推理过程中使用重新排名程序来获取最具情感相关性的响应。

Apr, 2019

视觉对话的模态平衡模型

该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像，没有历史对话背景的信息，因此先前的联合模式变得依赖和容易陷入对话历史的记忆中，相比之下，仅使用图像的模型更具有普适性，并且在 NDCG 指标上表现更好。因此，作者提出了一种结合两种模型的方法，并在视觉对话挑战赛中取得优异的成绩。

Jan, 2020

情感视觉对话：基于视觉对话的情绪推理的大规模基准测试

我们引入情感视觉对话，这是一个情感解释和推理任务，作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能：（1）基于对话的问答（2）基于对话的情感预测和（3）基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集，称为AffectVisDial，包含50,000个10轮的视觉对话，以及结论性的情感归因和基于对话的情感解释，总计达27,180个工作小时。我们解释了在收集数据集时的设计决策，并介绍了与对话参与者相关的提问者和回答者任务。我们训练并展示了基于最先进模型的坚实的情感视觉对话基准。值得注意的是，我们的模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。我们的项目页面可在此https URL找到。

Aug, 2023

TouchStone: 通过语言模型评估视觉-语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

对话LLM：面向情感识别的对话中的上下文和情感知识调整的LLaMA模型

使用多模态信息、上下文和情感知识调整的对话型大型语言模型(DialogueLLM)，通过对13,638个多模态（文本和视频）情感对话进行微调，克服了大型语言模型在情感识别方面的局限性，并在三个基准情感对话识别数据集上进行了全面评估。

Oct, 2023

大规模视觉语言模型中的艺术作品解释

大规模视觉语言模型（LVLMs）可以从图像和说明中输出文本，展示出在文本生成和理解方面的先进能力。然而，LVLMs在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题，我们提出了一个新任务：艺术品解释生成任务，同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述，基于这样一个前提：LVLMs应具有关于艺术品的预先存在的知识，艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估LVLMs基于语言和基于视觉的知识。与此同时，我们还发布了一个训练数据集，使LVLMs可以学习包含有关艺术品的解释。我们的发现表明，LVLMs不仅在整合语言和视觉信息方面存在困难，而且在仅从图像中获取知识方面存在更明显的限制。数据集（ExpArt=Explain Artworks）可在以下链接找到：this https URL。

Feb, 2024

训练小型情感视觉语言模型以实现对视觉艺术的理解

该研究开发了小型视觉语言模型，旨在通过情感建模和输入输出特征对齐，识别视觉艺术作品的情感类别并解释预测结果，实验证明该模型在理解视觉艺术方面的性能明显优于基准模型。

Mar, 2024

MMDU：多轮多图像对话理解基准及用于LVLM的指令调优数据集

生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型（LVLMs）的基本能力。我们引入MMDU作为一个综合基准以及MMDU-45k作为一个大规模的指导调整数据集，旨在评估和提高LVLMs在多轮和多图像对话中的能力。

Jun, 2024

对话可视化：通过大型语言模型实现通过对话理解提升图像选择

通过利用大型语言模型的强大推理能力生成精确的与对话相关的视觉描述符，我们提出了一种新的方法，以实现与图像的无缝连接，并在对话-图像检索性能方面取得了显著的改进。

Jul, 2024