Sep, 2024
基于文本的视频问答中的场景文本定位
Scene-Text Grounding for Text-Based Video Question Answering
TL;DR本研究针对现有基于文本的视频问答(TextVideoQA)存在的决策不透明和对场景文本识别的强依赖问题,提出了“场景文本定位”的新思路。我们通过提出T2S-QA模型来实现这一目标,该模型采用弱监督的场景文本定位策略,显著提升了问答的可解释性和效果。研究结果表明,尽管T2S-QA表现优异,但仍有很大的提升空间,尤其是在场景文本识别的准确性方面。