MMAug, 2023

多人对话中人类行为分析的数据增强

TL;DR我们的研究团队 HFUT-VUT 在 ACM Multimedia 2023 的 MultiMediate Grand Challenge 2023 中的解决方案覆盖了三个子挑战:身体行为识别,眼神接触检测和下一个发言者的预测。我们选择 Swin Transformer 作为基线,并利用数据增广策略来解决上述三个任务。具体来说,我们裁剪原始视频以去除其他部分的噪声。同时,我们利用数据增广来提高模型的泛化能力。结果,我们的解决方案在平均精度均值方面对身体行为识别取得了最佳结果 0.6262,并在相应的测试集上的眼神接触检测精确度方面获得了 0.7771 的准确率。此外,我们的方法在下一个发言者的预测方面也实现了 0.5281 的不加权平均召回率的可比较结果。