Sep, 2024

视频问答的多对象事件图表示学习

TL;DR本研究解决了现有视频问答系统在处理多个对象复杂场景时的不足。提出的对比语言事件图表示学习方法(CLanG)通过多层GNN集群模块来实现对事件表示的捕捉,显著提高了系统在处理因果和时间性问题上的表现,最高准确率提升达2.8%。