Jun, 2024

探索多模式 LLM 与知识密集型多模式 ASR 的潜力

TL;DR本文介绍了 Multimodal Scientific ASR(MS-ASR)任务,通过利用幻灯片的视觉信息来提高技术术语的准确性,从而改进科学会议视频的转录质量,提出了基于 Scientific Vision Augmented ASR(SciVASR)框架的方法,并在 GPT-4o 等最新的多模态大型语言模型的评估中显示出 45%的性能改进。