多人对话中人类行为分析的数据增强

MMAug, 2023

多人对话中人类行为分析的数据增强

Data Augmentation for Human Behavior Analysis in Multi-Person Conversations

Kun Li, Dan Guo, Guoliang Chen, Feiyang Liu, Meng Wang

TL;DR我们的研究团队 HFUT-VUT 在 ACM Multimedia 2023 的 MultiMediate Grand Challenge 2023 中的解决方案覆盖了三个子挑战：身体行为识别，眼神接触检测和下一个发言者的预测。我们选择 Swin Transformer 作为基线，并利用数据增广策略来解决上述三个任务。具体来说，我们裁剪原始视频以去除其他部分的噪声。同时，我们利用数据增广来提高模型的泛化能力。结果，我们的解决方案在平均精度均值方面对身体行为识别取得了最佳结果 0.6262，并在相应的测试集上的眼神接触检测精确度方面获得了 0.7771 的准确率。此外，我们的方法在下一个发言者的预测方面也实现了 0.5281 的不加权平均召回率的可比较结果。

Abstract

In this paper, we present the solution of our team HFUT-VUT for the multimediate grand challenge 2023 at ACM Multimedia 2023. The solution covers three sub-challenges: bodily behavior recognition, →

multimediate grand challenge 2023 bodily behavior recognition eye contact detection next speaker prediction swin transformer

发现论文，激发创造

端到端任务导向对话的有效数据增强方法

该研究通过四种自动方法在单词和句子级别上增强数据，提高目标导向对话模型的数据效果，并在两个数据集上进行实验，结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认，增加用户话语的多样性可以使端到端模型学习特征更为稳健。

Dec, 2019

Swin Transformer 面部表情识别

本论文通过引入 Swin transformer，提出一种融合视觉、时间和音频模态的多模态方法用于自然环境下的面部表情识别，并在 Aff-Wild2 数据集上进行了实验证明其有效性。

Mar, 2022

数据增强和迁移学习应用于面部表情识别

通过使用数据增强技术和生成对抗网络模型，将初步训练的卷积神经网络与不同架构的预训练模型的方法应用于面部表情识别任务，使得模型的泛化能力得到提高，从而实现对面部表情的自动识别，准确率达到 85%。

Feb, 2024

多媒体 '23: 社交互动中的参与度估计和身体行为识别

MultiMediate'23 挑战基于 NOXI 数据库和 MPIIGroupInteraction 语料库，首次对参与度估计与身体行为识别进行了人类社交行为分析任务的研究，并提出了新的标注集和基准结果。

Aug, 2023

3M-TRANSFORMER：用于体现式交替预测的多级多轮多模态 Transformer

使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况，在已引入的 EgoCom 数据集上进行实验，与现有的基线和替代基于 Transformer 的方法相比，平均性能显著提升了最高达 14.01%。

Oct, 2023

基于 Transformer 的多模态信息融合用于面部表情分析

本研究介绍了一种基于多模态特征和 Transformer 的统一框架，用于情感行为分析和表情识别任务，同时运用数据平衡和增强方法进一步提高模型性能。实验证明，该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。

Mar, 2022

通过数据增强和异构对话图网络提升对话中的人格识别

我们提出了一种使用人格特征插值来增强说话者数据增强和异构对话图网络来独立捕捉上下文影响和内在个性特征的方法，并在 RealPersonaChat 语料库上进行评估，对现有基线模型进行了显著改进。

Jan, 2024

HULAT 参加 SemEval-2023 任务 9：基于数据增强的预训练 Transformer 在多语言推特亲密度分析中的应用

该研究讨论了使用数据增强技术 fine-tune 最流行的 Transformer 模型来参加 SemEval-2023 任务 9，多语言推文的亲密度分析。研究结果表明，我们的系统在多种语言中有良好表现，尤其是葡萄牙语、英语和荷兰语。

Feb, 2023

MAGIC-TBR: 基于变形器的群体环境下身体行为识别的多视角注意力融合

提出了一种名为 MAGIC-TBR 的多视角注意力融合方法，通过基于变压器的方法结合从视频中提取的特征和相应的离散余弦变换系数，探索细节行为（如手势、整理或笨拙）的检测。在 BBSI 数据集上进行了实验，结果证明了所提特征融合与多视角注意力的有效性。

Sep, 2023

一种特征空间多模态数据增强技术用于文本 - 视频检索

本文介绍了利用文本 - 视频检索方法，并结合数据增强技术及多模态数据的方法，对大规模公共数据集 EPIC-Kitchens-100 的测试性能进行提升，灵敏的处理方式能以自然语言查询进行相关视频的查找。

Aug, 2022